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AVANT-PROPOS À L'ÉDITION FRANÇAISE 


Le problème d’optimalisation est aujourd’hui le problème clef 
de la théorie de la commande dans les domaines technique, économi- 
que et social. 

Il n’y a donc rien d'étonnant que ces dernières années on a vu 
paraître de nombreux ouvrages traitant des divers aspects de ce 
problème ainsi que des différentes tentatives de leur résolution. 

Il manquait toutefois un livre qui présenterait sous une optique 
commune l’ensemble de divers approches et problèmes que pose la 
théorie des systèmes optimaux. Dans une large mesure cette lacune 
a été comblée par la publication en russe des « Principes théoriques 
des systèmes asservis optimaux » d'Alexandre Feläbaum. Le présent 
ouvrage constitue la traduction des « Principes », spécialement 
remaniée à l'intention du lecteur français. 

Dans un ouvrage relativement restreint l’auteur a réussi à brosser 
un tableau assez complet de l’état actuel de la commande optimale. 
On y trouve les éléments de mathématiques nécessaires, sans qu'il 
soit besoin de recourir à des ouvrages spécialisés, et l'exposé de la 
théorie générale des systèmes optimaux à l'information a priori 
complète et incomplète, avec accumulation active et passive de l’in- 
formation. 

À. Feldbaum a également développé dans son livre la théorie 
de la commande duale qui attire ces derniers temps l'attention des 
spécialistes. 

Un exposé précis, clair et imagé, accompagné de nombreux exem- 
ples rend ce livre accessible aux étudiants et aux jeunes ingénieurs 
se spécialisant dans le domaine de la cybernétique, tandis que les 
résultats originaux et l'approche générale du problème peuvent 
présenter un intérêt certain pour les chercheurs scientifiques. 

Nous espérons que cette traduction française sera bien reçue par 
les étudiants, ingénieurs et chercheurs francophones. 


Takov Tsypkine 


Moscou 1972 


CHAPITRE PREMIER 


PROBLÈME DU SYSTÈME OPTIMAL 


$ 1. Intérêt de la théorie des systèmes optimaux 


La technique de transmission et de traitement de l'information, 
dite technique cybernétique, a connu ces dernières années un dé- 
veloppement rapide. L'’essor de l’automatique, sa branche maïtresse, 
est caractérisé par une extension rapide des systèmes asservis, par 
l'application de ces derniers dans les domaines de plus en plus nom- 
breux. Mais l'essor de l'automatique n’est pas seulement « superfi- 
ciel », il va aussi « en profondeur ». On voit apparaître de nouveaux 
principes de commande automatique, de nouveaux types de systèmes 
asservis aptes à résoudre des problèmes de gestion de plus en plus 
compliqués et à remplacer l'homme dans des sphères de son activité 
toujours plus importantes. 

Les systèmes automatiques deviennent de plus en plus compliqués. 
Dans les régulateurs automatiques simples des premiers types, les. 
organes de mesure, de commande et d'exécution étaient souvent 
réunis. Dans les systèmes de commande automatique modernes ces 
organes sont dans la plupart des cas des dispositifs particuliers, par- 
fois très complexes. Souvent l’unité centrale du système, l'organe de: 
commande, représente un calculateur analogique ou digital, muni 
d’une loi de commande dite encore algorithme. Les machines de com- 
mande actuelles, universelles ou spécialisées, permettent de mettre 
en œuvre les algorithmes les plus complexes. Les vitesses de calcul 
réalisables avec les machines modernes s'élèvent à des centaines de 
milliers et à des millions d'opérations élémentaires par seconde. 
C'est pourquoi pour de nombreuses applications l'organe de com- 
mande peut être considéré comme un dispositif non inertiel.- 

Des tendances analogues se manifestent également dans d’autres: 
branches de la cybernétique. Les communications à de très grandes. 
distances, la télémétrie et la télécommande, la séparation des images 
radar et de télévision des bruits de fond et de parasites artificiels, 
la reconnaissance des images, autant de problèmes qui imposent 
la réalisation des algorithmes complexes du traitement de l’informa- 
tion. Un exemple représentatif de tels systèmes est fourni par les 
dispositifs d'identification des images. Les dispositifs de ce type 
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ne s’emploient pour le moment que pour identifier des lettres et des 
chiffres imprimés ou écrits à la main, ainsi que des commandes don- 
nées à la machine de vive voix. Or, ces dispositifs sont très promet- 
teurs en perspective; c’est l'identification et la classification des 
images et des situations complexes brouillées par l'ambiance, les 
bruits, etc., qui permettent à l’homme de s’adapter facilement au 
milieu ambiant et de prendre des décisions correctes et justifiées. 
Les algorithmes susceptibles de simuler les fonctions relativement 
<omplexes de l'intelligence humaine sont nécessairement complexes ; 
l’organe appelé à les appliquer doit donc être une machine à calculer 
suffisamment complexe elle aussi. 

L'essor de la technique va de pair avec celui de là théorie générale 
de ia commande, qui est à la base d’un grand nombre de branches 
techniques associées à la transmission et au traitement de l’informa- 
tion. Cette théorie générale s’appelle cybernétique technique; cette 
dernière fait partie de la cybernétique générale (cf. [1.1]), dont 
l’objet est l'étude des processus de commande et de traitement de 
l'information; ces processus sont caractéristiques des systèmes 
techniques, mais aussi des êtres vivants et des collectivités consti- 
tuées d'êtres vivants ou de machines. 

La cybernétique générale, de même que la cybernétique techni- 
que, tire son origine d’un long processus de généralisation des théo- 
ries, idées et principes disparates établis par des disciplines particuliè- 
res. Ce processus de généralisation se poursuit encore aujourd'hui. 
Jusqu'à ces derniers temps la théorie de la commande se développait 
dans plusieurs directions peu liées entre elles. Ce n'est qu’à présent 
qu'une tendance se manifeste pour rapprocher ces directions diverses 
et préciser les notions, idées, méthodes et théories générales. 

On distingue dans la cybernétique technique actuelle les princi- 
pales branches suivantes. L'une des plus importantes est celle qui 
concerne les principes et la théorie de l’organisation des systèmes 
de commande complexes, composés d’un grand nombre d'éléments, 
dont les interactions sont compliquées et les conditions de travail 
difficiles. 

” Une autre branche importante de la cybernétique technique 
s'occupe de la théorie et des principes de fonctionnement des systè- 
mes auto-adaptatifs. Le processus d'adaptation automatique con- 
siste à modifier les paramètres, les caractéristiques et, en général, 
les propriétés du système ou de ses parties, en agissant soit sur une 
boucle ouverte, soit par régulation automatique, soit encore par 
recherche automatique. Ainsi, dans un système d’optimisation auto- 
matique l'optimisateur modifie par recherche automatique la carac- 
téristique de l’organe de commande de façon à assurer son meilleur 
fonctionnement possible lors du changement des propriétés de l’objet 
gouverné. C’est dans cette direction qu’évolue la théorie des systè- 
mes d'auto-adaptation et d’auto-apprentissage. 
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L'objet du présent ouvrage est la troisième branche principale 
de la cybernétique technique, notamment la théorie des processus 
optimaux (meilleurs dans un certain sens), la théorie des systèmes 
de commande optimaux, ainsi que des systèmes optimaux de trans- 
mission et de traitement de l'information. De nos jours les problé- 
mes associés aux systèmes optimaux deviennent cardinaux et voici 
pourquoi : 

a) Tout système scientifiquement justifié est optimal du fait 
qu'en le choisissant nous le préférons par là même à d’autres ; nous 
considérons par conséquent que dans un certain sens il vaut mieux 
que les autres. Les critères qui président à ce choix (nous dirons dans 
la suite que ce sont les critères d’optimalité) varient suivant les cas. 
Mais quel que soit le choix, on fait toujours appel à un critère 
d'optimalité. S’il n’en était pas ainsi, il serait impossible de faire 
un choix justifié. 

Autrefois, lorsque la production n’était pas encore automatisée 
et. était basée sur l'expérience et les acquis humains, lorsque les 
techniques de mesure et de calcul étaient encore peu évoluées, les 
tentatives d'interpréter et de définir les critères d'’optimalité et 
d'autant plus de construire des systèmes optimaux étaient dans la 
plupart des cas vouées à l’échec. Nous vivons une époque nouvelle, 
époque marquée par l’automatisation poussée des processus indus- 
triels. C’est pourquoi l’intérêt des problèmes de la commande optimale 
croît sans cesse. Leur résolution permettra d'élever l'efficacité et le 
rendement des équipements industriels, d'améliorer la qualité de la 
production, de réduire la consommation d'énergie et des matières 
premières, etc. 

b) Une loi de la nature est une proposition de caractère restrictif 
délimitant dans un certain domaine le possible de l'impossible. Les 
lois générales de la cybernétique doivent également permettre de 
dire ce qu'on peut ou ne peut pas faire dans telles ou telles condi- 
tions réelles. Elles peuvent donc être énoncées sous la forme de pro- 
positions sur le « plafond des possibilités » de la commande. Or, 
la tâche de la théorie des systèmes optimaux consiste précisément 
à rechercher ce « plafond ». 

Par conséquent, la théorie des systèmes optimaux doit notable- 
ment contribuer à l’établissement des lois générales de la cyberné- 
tique. Bien que ce soit dans l’avenir, il semble que cet avenir ne se 
fera pas beaucoup attendre. 

Les problèmes relatifs aux systèmes optimaux intéressent de 
nombreux domaines de la technique cybernétique. Ge sont notam- 
ment les problèmes. de commande en temps minimal; de filtrage 
optimal du signal mélangé avec un bruit ; de construction des détec- 
teurs de signaux optimaux, des appareils de « prévision » optimaux ; 
d'établissement des méthodes d'identification des images, de Îa 
stratégie optimale de la recherche automatique, etc. Pourtant, tous 
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ces problèmes, quoique bien différents à première vue, sont liés par 
de profonds liens internes. Dans ce qui suit nous allons insister sur 
les traits communs et les rendre évidents, car ce sont précisément ces 
traits qui sont à la base de la théorie unique des systèmes optimaux. 

En plus des branches énumérées ci-dessus on pourraït en citer 
d’autres, tout aussi importantes, par exemple l'étude de Ia stabilité 
et des auto-oscillations des systèmes. En outre, les branches aussi 
fondamentales que la théorie générale des systèmes (dont fait partie 
la théorie des automates) et La théorie générale des signaux (dont fait 
partie la théorie de l'information) appartiennent à la cybernétique 
générale au moins pour autant qu'à la cybernétique technique. 

Ces branches ne sont nullement indépendantes les unes des autres. 
Ainsi, la théorie des automates finis étudie le problème très inté- 
ressant qui consiste à définir la structure la plus simple d’un automa- 
te capable de réaliser l’algorithme imposé. Un tel automate sera 
optimal par sa simplicité. Parmi les problèmes à résoudre il y a éga- 
lement l'étude des automates à fiabilité maximale pour la complexité: 
donnée, c’est-à-dire des systèmes optimaux par la fiabilité. Les 
questions relatives à l'adaptation automatique s’associent encore 
plus intimement à la théorie des systèmes optimaux. La majorité 
de ces questions est traitée par la théorie des systèmes d'optimisation 
automatique liée à la théorie des systèmes optimaux par de nombreu- 
ses attaches dont voici quelques-unes. 

a) Un système optimal est l’idéal auquel tend (sans l’atteindre 
parfois) un système d'optimisation automatique. 

b) Lorsque les caractéristiques de l’objet gouverné varient assez 
lentement, l’organe de commande primaire peut se construire d’après 
la théorie des systèmes optimaux, mais il faut prévoir la variation 
de ces paramètres. L’organe de commande secondaire, constitué 
d'un optimalisateur automatique, en observant le fonctionnement. 
du système, modifie les paramètres du primaire de façon à assurer 
que le système reste optimal malgré les modifications imprévues 
des caractéristiques de [l’objet gouverné. 

v) Lorsque les caractéristiques de l’objet varient assez rapide- 
ment, les performances d’un système fonctionnant, comme indiqué 
en b), peuvent s'’écarter sensiblement des performances optimales. 
Alors le problème se pose de rechercher le meilleur algorithme pour 
trouver les méthodes de commande optimales, de construire un 
système optimal de la recherche automatique ou, en général, un 
système optimal d'adaptation automatique. 

La théorie des systèmes optimaux est étroitement liée à d’autres 
branches de la cybernétique technique ne serait-ce que parce que 
toute tâche assumée par un organe de commande peut être réalisée 
de Ia meilleure façon, optimale dans un certain sens. Par conséquent, 
dans tout domaine de Ïa cybernétique technique, on rencontre des 
problèmes de construction des systèmes optimaux. 
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Nous avons souligné plus haut la valeur purement théorique de la 
théorie des systèmes optimaux. Pour ce qui est de son intérêt prati- 
que, elle présente deux aspects bien différents. Premièrement, il est 
impossible de construire sans elle des systèmes asservis optimaux 
ou quasi optimaux. En effet, même dans les cas les plus simples, 
l'intuition d’un ingénieur ne peut suffire à dégager Les lois optimales 
qui régissent le fonctionnement des organes de commande. Or, 
l'application de ces lois aux cas concrets du fonctionnement des 
machines les plus différentes peut donner un effet économique très 
important; les critères applicables dans le domaine des techniques 
militaires sont d’un tout autre type, mais Ià aussi l'intérêt des 
systèmes optimaux est évident. Deuxièmement, la théorie des 
systèmes optimaux permet d'évaluer le « plafond » qu'on peut attein- 
dre dans un système optimal et de comparer ce « plafond » avec 
les caractéristiques d’un système déjà réalisé, non optimal. Cette 
comparaison permet de juger s’il faut chercher un système optimal 
ou bien $e contenter du système existant. 


$ 2. Classification des systèmes optimaux 


La figure 1.1 représente le schéma fonctionnel d’un système 
de commande automatique. La lettre À désigne l'organe de comman- 
de et la lettre B l’objet gouverné. À la sortie de l’objet B apparaît 


Fig. 1.1, 


la grandeur commandée x. Par grandeur commandée on entend les 
paramètres caractéristiques de l’objet gouverné. Dans le cas général 


il existe plusieurs paramètres de ce type: x, . . ., x,. Il est commo- 
de de les considérer comme les coordonnées du vecteur x: 
Dis 23 4) (1.1) 


Le vecteur x s'appelle également vecteur de sortie ou grandeur 
de sortie de l’objet B. 


L'organe de commande À envoie sur l'entrée de l’objet B la 
commande u. Plusieurs commandes w1, u2, ..., u, peuvent être 


considérées comme les coordonnées u; (j — 1, ..., r) du vecteur z: 


= (dis à + 4). (1.2) 
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À. l'entrée de l’organe de commande À on amène la consigne x* 
qui est une instruction définissant la grandeur de sortie x de l’ob- 
jet PB. Cette instruction doit concrétiser le but de la commande 
(le concept correspondant est précisé au paragraphe suivant). Elle 


peut être constituée d’une collection de n grandeurs x*, . ..; x# 
que nous allons considérer comme les coordonnées du vecteur x* : 
DRE TR * PASS 
x* — (x; vs Th). ({ 4} 


On peut exiger, par exemple, que le cas idéal vérifie les conditions 
= (i—=1,...,n), (1.4) 


où x? sont les fonctions du temps données. 

Les systèmes de commande automatique forment deux classes : 
systèmes en boucle ouverte et systèmes en boucle fermée, ces derniers 
étant également dits systèmes à réaction. Dans les systèmes en boucle 
ouverte, l'organe de commande À ne reçoit pas d'information sur 
l'état réel x de l’objet B. Dans les systèmes en boucle fermée, l’orga- 
.ne À reçoit cette information par la boucle de réaction (en bas de la 
figure 1.1). Le principe du fonctionnement d’un système de comman- 
de en boucle fermée peut être caractérisé brièvement de la façon 
suivante : Si la grandeur x ne correspond pas aux exigences x*, l’orga- 
ne de commande À exerce sur l’objet B une action x qui rapproche x 
de x*. 

L'écart entre la grandeur x et les consignes peut être dû à des 
causes diverses. | . 

a) Utilisation incorrecte, imprécise ou retardée par l'organe À 
de l’information qu'il contient ou qu'il reçoit sur les caractéristiques 
et l’état de l’objet et le but de'la commande. 

b) Possibilités limitées de la commande, c'est-à-dire l” im possibi- 
lité pour telle ou telle raison d'amener à l' objet B des signaux de 
commande 4 pouvant assurer à l'objet le comportement imposé x. 
En pratique, les possibilités de commande sont toujours limitées et 
ceci ne doit jamais être perdu de vue. 

c) I1se peut que l'écart entre x et la valeur de consigne soit dû 
à une perturbation z imprévisible et incontrôlable, agissant sur 
l'objet B et intervenant dans sa grandeur de sortie x. Si les diffé- 


rentes parties de l’objet B subissent des perturbations z;4, . . ., z,, 
on peut Les représenter sous la forme du vecteur 2: 
2 = rss 0) (1.5) 


Les perturbations que subit l'objet gouverné B peuvent provoquer 
une modification imprévue de ses caractéristiques. L'action exercée 
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sur l'objet par la modification de la charge peut être considérée 
comme un cas particulier de la manifestation d’une perturbation. 

Supposons que l'algorithme de l'organe de commande À assure 
un bon fonctionnement du système pour des caractéristiques définies 
de l’objet B. La variation de ces caractéristiques peut altérer le 
fonctionnement du système et entraîner des écarts importants entre 


la grandeur zx et la valeur de consigne. 
Dans de nombreux cas, le principe de la réaction rend possible 


l'observation des conditions imposées à la grandeur x même en pré- 


sence d'une importante perturbation z subie par l’objet B. Pourtant, 
lorsque les caractéristiques de l’objet B sont complexes et varient 
rapidement dans une large plage, le problème de commande devient 


plus difficile. L'information sur la perturbation z, ne serait-ce que 
sur certaines de ses composantes z4, . . ., Zyr ( <Z À), peut contribuer 
grandement à la résolution du problème et améliorer le résultat de 
la commande. Supposons que la perturbation soit mesurée et que les 
résultats des mesures soient canalisés (cf. trait interrompu de la 
figure 1.1) jusqu’à l’organe de commande À. Ce dernier peut alors 


calculer et fournir une commande # telle qu'elle neutralise la pertur- 


bation z et fait prendre à la grandeur de sortie x de l’objet B une 
valeur qui correspond mieux à celle de consigne. Cette méthode est 
dite de compensation. 

Dans plusieurs cas, Iorsqu'il est assez simple de mesurer l’action 
perturbatrice principale, la méthode de compensation ou sa combi- 
naison avec le principe de réaction présente de grands avantages. 

Dans la plupart des cas les propriétés de l’objet B sont imposées 
et ne doivent pas être modifiées. Par contre, l'algorithme de l’organe 
de commande À n'étant pas défini d'avance, on peut le choisir dans 
une classe très étendue des solutions possibles *). Le problème de 
construction d’un Système optimal se ramène ainsi à la recherche 
d'un organe de commande À tel que dans. un certain sens il soit 
capable de commander l’objet B de Ia meilleure façon. 

: ‘ Si À ne doit répondre à aucune condition supplémentaire, l'algo- 
rithme de l’organe optimal À est défini par les facteurs suivants, 
associés à l’objet B et au mode de sa liaison avec À : 

1) caractéristiques de l’objet B ; 

2) conditions qui lui sont imposées (but de la commande); 

3) information sur l’objet B fournie à l’organe de commande À. 

Une position correcte du problème exige une étude détaillée de 
ces facteurs. On peut représenter chacun de ces facteurs par une 


*) Il arrive souvent que l'organe de commarde comporte une partie de 
puissance invariable; il faut alors rapporter cette dernière à l’objet gouverné 
et la considérer comme l'une de ses parties. C’est pourquoi le concept d’« obiet 
gouverné » est remplacé parfois par celui de « partie invariable du système ». 
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certaine direction, orthogonale aux autres (fig. 1.2), et mettre en 

correspondance à| chaque type de systèmes optimaux un point ou 

un domaine de l’espace tridimensionnel ainsi obtenu. 

Les directions de la figure 1.2 traduisent les branches de la classi- 
fication des systèmes optimaux. L’avantage que présente une telle 
classification est qu’elle permet de définir correctement la place 
de rhaque type de systèmes optimaux parmi les autres types. L'étude 
de tous les types possibles de systèmes 
optimaux considérés sous une optique géné- 
rale révèle l’unicité des lois fondamentales 
de la théorie, indépendamment des diffé- 
rences qui existent entre les types parti- 
culiers des systèmes. 

Buï de la commande La première branche de la figure 1.2 cor- 
respond à la classification d’après les carac- 
téristiques des objets. La figure 1.1 montre 
que l’objet B est caractérisé par la relation 


entre sa grandeur de sortie x et les gran- 
deurs d'entrée w et z, qui peut s’écrire 


z=F(u, 2). (1.6) 


Dans le cas général, la relation F est un 
opérateur, c’est-à-dire une loi de correspon- 
dance entre deux ensembles de fonctions. Par exemple, dans la 
formule (1.6), le vecteur fonction x est défini par le type des vecteurs 
fonctions x et z. L'opérateur F de l'objet peut être défini de façons 
différentes: par des formules, des graphiques ou des tableaux. 
Souvent cette relation est donnée sous la forme d’un système 
d'équations différentielles, comme par exemple 


information sur B dans A 


Fig. 1.2. 


dx; 
= 1 css Tns Us ces Urs Zi, se. 27; t), 
dre ne A DNS dr te (1.7) 
dx 
= fn (@1, ser ns Us secs Urs 245 ee 275 t). 

Dans le cas général f; sont des fonctions non linéaires de x4, . .. 
ee Tn3 Us eee Ur Zn << +, 2 et du temps f. Avec les notations 
vectorielles 

dx dz; dx : + 
(St... ne) : f = (fi -., În) (1.8) 


on peut écrire les équations (1.7) sous une forme vectorielle condensée 


= f(x, u, 2, t). (1.9) 
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_ Dans cette expression le vecteur f est une fonction des vecteurs 
x, u, zet du scalaire #. Si le vecteur fonction z (4 est connu et la 
perturbation z (#) imposée, les équations (1.7) ou (1.9) permettent 
de trouver le vecteur x (# pour les conditions initiales données, 
c'est-à-dire lorsque l’on connaît le vecteur 2° — (x, . .., x), où 


D '=fiiies G=dse,in). (1.10) 


des modes de classification des opérateurs des objets peuvent 
être les plus différents. Nous ne passerons en revue que les plus 
importants. Considérons d’abord la partition des systèmes en systè- 
mes continus, continus à états discrets et discrets. Dans les systèmes 
du premier type les grandeurs sont 
considérées à n'importe quel instant, 
de plus, ces grandeurs peuvent 
varier en permanence et, en prin- 
cipe, leur niveau peut être quel- 
conque (fig. 1.3). Ainsi, d'après 
les définitions adoptées dans les 
techniques de communication et de 
régulation automatique, ces gran- 
deurs ne Sont pas quantifiées ni 


dans le temps ni en amplitude. Fig. 1.3. 
Telles sont, par exemple, les solu- 
tions z1, . . ., &n des équations (1.7) qui sont fonctions du temps 


continu {. Dans les systèmes du second type, utilisant par 
exemple la commande par impulsions ou numérique, ainsi que la 
modulation d'impulsions pour la transmission des signaux, les 
valeurs dés grandeurs ne présentent un intérêt qu'à des instants 
discrets ? — ty, di, to, . .. Si, dans ces conditions, les. niveaux 
acceptables des grandeurs sont quelconques, cela signifie que ces 
dernières sont quantifiées dans le temps et non pas en amplitude. 
Les systèmes respectifs s’appellent systèmes continus à états discrets. 
L'opérateur d’un Système continu à état discret peut être donné, 
par exemple, par des équations aux différences finies. Désignons par 
z; (m) la valeur de x; à l'instant £ = t, (cf. fig. 1.3). Désignons 
ensuite par | | 
x(m) = (x; (m), ..., 3, (m)l (1.11), 
le vecteur x à l'instant £ = t, et par u (m) le vecteur u à ce même 
instant { — 1{,. Les équations aux.différences finies qui associent les 
valeurs futures x; (m + 1) aux Valeurs antérieures x; (m) peuvent 
s'écrire . 
Vi (m + 1) = 8 [xx (me), . En (M); um), ..., u, (m); 
Zm), ..., am); ml G=1,...,n), (1.12) 
50966 
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où g; sont en général des fonctions non linéaires de leurs arguments. 
Les équations (1.12) peuvent être mises sous une forme vectorielle- 


z(m+1)= gx (M); w(m); Z(m); mi, (1.13) 


g étant ici le vecteur aux composantes g4, ..., gn. 

Dans le troisième type des systèmes ne sont autorisés que des. 
niveaux discrets définis des grandeurs considérées. Les systèmes 
dans lesquels les grandeurs sont quantifiées aussi bien dans le temps: 
qu’en amplitude sont dits discrets (réseau deniveaux sur la figure 1.3). 
L'opérateur d’un système discret peut être caractérisé, par exemple, 
par les équations (1.12); toutefois, toutes les grandeurs figurant. 
dans ces équations doivent avoir des niveaux autorisés. Les fonctions: 
£;, notamment, ne peuvent prendre que les valeurs correspondant. 
aux valeurs autorisées pour x:. | 

Un grand nombre d'ouvrages est consacré aux systèmes continus: 
optimaux (cf. par exemple [3.2, 3.14, 3.16-3.18, 3.21-3.23)). 

Les systèmes continus à états discrets optimaux ont fait l'objet. 
de 13.19, 3.20, 3.24, 3.30, 3.31], et les systèmes discrets optimaux. 
de (4.121. 

Les objets peuvent être classés également d’après le type de leurs 
équations. Dans la plupart des travaux consacrés aux systèmes. 
optimaux sont étudiés les objets aux paramètres localisés, dont la 
variation est décrite par des équations différentielles ordinaires. 
Pourtant, dans [3.42] on trouve la position du problème et dans: 
(3.43, 3.441 sa résolution dans le cas des objets aux paramètres: 
répartis, décrits par des équations aux dérivées partielles et des: 
équations intégrales. | 

Parmi les caractéristiques de l’objet B on compte également. 
les contraintes de types variés. Par exemple, les composantes u,, .. 
..., ü, du vecteur x (cf. formule 1.2) ne peuvent pas avoir des. 
valeurs quelconques. Elles ne peuvent pas dépasser certaines limites: 
par suite des propriétés physiques de l’objet ou ne le doivent pas: 
pour ne pas compromettre le fonctionnement normal de l’objet. 

Souvent les contraintes sont écrites sous la forme 


[ul Us... [ul< U,, (1.14) 


où U,, ..., U, sont des constantes données. II se peut que la limi- 
tation porte sur une fonction de plusieurs actions de commande. 


comme, par exemple, dans le cas 
T 
2 MEN, (1.15) 
V=— | 
où À? et NW sont des constantes ou des fonctions du temps données. 


Considérons l'espace de dimension r du vecteur w aux coordonnées: 
cartésiennes u,, ..., u.. Les conditions (1.14) ou (1.15) sont des 
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cas particuliers limitant la disposition de l'extrémité du vecteur w 
à un certain domaine admissible Q (u) de cet espace. L'expression 
« u appartient au domaine Q (u) » s'écrit sous une forme symbolique 


uEQ (u). (4.16) 
Dans le cas particulier des conditions (1.14) le vecteur x est 


borné par un parallélépipède de dimension r, et dans le cas des 


conditions (1.15) par un ellipsoïide de dimension r dans l’espace u. 
Les contraintes peuvent être imposées non seulement aux com- 
mandesS u;, mais encore aux coordonnées x; (i — 1, ..., n) de 


l’objet B. Ainsi, certaines fonctions ou fonctionnelles Æ, (x) de 
ces coordonnées ne doivent pas dépasser certaines limites qu’on 
peut prendre égales à zéro sans perte de généralité : 


Hire a) =D <0 (=... m0) A) 


Les fonctions ou fonctionnelles Æ, (x) peuvent être considérées 


comme les coordonnées d’un vecteur À (x) à m dimensions. Les 
conditions (1.17) imposent des contraintes à la disposition de ce 


vecteur. Si Æ, sont des fonctions univalentes de x, les conditions 
(1.17) traduisent le fait que dans l’espace x de dimension n le vecteur 
æ est également borné par un certain domaine admissible Q (x): 


x EQ (x). (1.18) 
Dans le cas général, les contraintes sont imposées à certaines 
fonctionnelles L de u(t), x() et Z (2, c'est-à-dire aux grandeurs 


dépendant du type des fonctions u, x et z dans un intervalle quel- 
conque : 


L,lu (à, z(d, z(IEQ, (LD) (u=1,..., m), (1.19) 
où Q, (L) est le domaine admissible de variation de la fonction- 
nelle L,. L'exemple en est fourni par la contrainte du type 

T n | | 
> À [> avrÿ + Bus | dEN, (1.20) 
D  v—1 
où T, a, B et N sont des constantes positives *}. 

Dans les systèmes continus à états discrets et les systèmes discrets 

les restrictions concernent les grandeurs analogues. On peut rap- 


porter également aux caractéristiques de l’objet B celles de la 
perturbation z due au milieu ambiant (ci. fig. 1. 1 et équations (1. D 


__. *) La formule de la contrainte peut comporter Soon le temps £ sous 
une forme explicite. à $ 


2 + 
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{1:9)). Parfois on fait entrer. les caractéristiques de la perturbation 
dans l e. de l’objet. Si z, sont des fonctions du temps connues 
= 1, , d), leurs expressions peuvent être portées dans les 
équations ‘de l'objet B, où le temps sera présent sous une forme 
explicite. À des fins méthodologiques il est commode de considérer 
toute perturbation imprévue z, comme appliquée à à l’objet de l’ex- 
térieur, alors que toute perturbation supposée connue est inclue 


dans l'opérateur F. | 

En s'ajoutant à d’autres actions, à w;, par exemple, les pertur- 
‘bations z, peuvent être amenées aux entrées de l’objet B. Ces actions 
sont dites additives. Mais les z, peuvent agir d’une autre manière, 
en modifiant les coefficients des équations des circuits ou ‘leurs 
paramètres. De telles actions sont dites paramétriques. Dans des 
systèmes non linéaires il est difficile de délimiter ces deux types 
d'action. | 

Les perturbations aléatoires z, peuvent être des grandeurs ou 
des processus aléatoires que nous étudierons au chapitre If. Dans 
Je premier cas, au cours d'un processus isolé dans le système, les 2 
peuvent être considérées comme constantes ; dans le deuxième cas, 
les z, sont des fonctions aléatoires du temps dont la variation au 
cours d'un processus ne peut être négligée. 
:: Parfois la présence des perturbations aléatoires z, dans les “on- 
ditions du problème n'est pas explicite. Mais si z est aléatoire et w 
donné, d’après (1.7) la grandeur de sortie x de l'objet B est un pro- 


cessus aléatoire. Au lieu des caractéristiques de z on peut introduire 
directement les caractéristiques probabilistes conditionnelles du 
processus x, fonctions de w et des conditions initiales 4°, done, 
donner de cette façon l'opérateur F et les caractéristiques de la 
perturbation aléatoire z. C'est ainsi qu'est défini l’objet dans [4.121]. 


$S 3. Critères d'optimalité 

La deuxième branche de la classification des systèmes optimaux 
est basée sur les conditions imposées au comportement de l'objet B 
(cf. fig. 1.2). L'une des exigences est le but de la commande. Quel 
que soit le cas, on peut considérer que le but de la commande est 
d'obtenir l’extrémum d’une certaine grandeur ©, dite critère d’ opti- 
malité. Suivant les exigences, il s’agit de maximiser ou de mini- 
‘miser la grandeur Q. Dans le cas général le critère d'optimalité 
dépend de la consigne z*, de même que de la grandeur de sortie x; 


il peut également dépendre de u et de z ainsi que du a t. Pour 
fixer les idées, supposons que la grandeur Q est à minimiser: . 


QG, 2*, U, 2, Ë) = min. (1.24) 
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Cette condition est une formulation analytique du but de la 
commande. Notons que © est une fonctionnelle, c’est-à-dire un 


nombre défini par le type des fonctions x, x*, u et z. Dans un cas 
particulier © s'écrit 


T 
Q= [te ()—2 (OP &, (1.22) 
0 


où Z est une grandeur fixée. La formule (1.22) montre que la gran- 
deur © est définie par le type des fonctions x (f) et x* (t) dans l’in- 
tervalle OLiI<T. 

Dans le choix du critère d’optimalité Q on part des conditions 
techniques et économiques concrètes, ce qui sort du cadre de la 
théorie des systèmes optimaux. 

La formule (1.21) pour © permet non seulement de connaître 
sa valeur minimale possible On;in, mais aussi d'évaluer l’altération 
du fonctionnement du système en cas d'écart de l’optimum. La 
mesure de cette altération est donnée par la différence Q — Qmin 
ou par une fonction monotone quelconque de cette différence qui 
devient nulle quand Q = Qunin: 

La classification peut partir des types des critères Q. Aïnsi, les 
critères d'optimalité diffèrent suivant qu'ils se rapportent à un 
processus transitoire ou stationnaire. Considérons à titre d’exémple 
les critères intégraux des processus dans des systèmes linéaires. 
Soit le processus dans un certain système linéaire, décrit par une 
équation différentielle linéaire à coefficients constants, associant 
la grandeur d'entrée x* à celle de sortie x: 


an an 1x dmx* 5 
Go + di er eee ant = bo + 2.4 bme*. (1.23} 


On sait que la solution de cette équation s'écrit 
z (à) = & (8) + za (6), (4.24) 


où x, (t) est la solution particulière de l’équation à membre droit, 
et za (t) est la solution générale de l'équation sans membre droit. 


ant q dan lry : 
lon en eee td nta = Ù. (1:25) 


Donnons l'interprétation physique de la formule (1.24); sous 
certaines conditions supplémentaires x, ({) est un processus sta- 
tionnaire, alors que x, (£) est un processus transitoire dans le systè- 
me. Pour un système stable et dans ce qui suit nous supposons 
qu'il en est ainsi, on a | 


za(t) — 0 avec {+ co. (1.26) 
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Pour trouver x, (t) il faut d’abord résoudre l'équation caracté- 
ristique du système 


GP +ap" +... +an—=0, (1.27) 


dont les racines sont pP:, Ps, . . ., p,. Sans perte de généralité, 
on peut considérer que toutes les racines sont différentes, il vient 


za (6) = Cart +... + Crernt, (1.28) 


les constantes C; (i — 1, ..., n) étant trouvées à partir des condi- 


tions initiales 
dR dr dR 
(=) = (TE) _ (=) | (1.29) 
dik 110 dtè 120 dt }#—0 


Pour se représenter le processus transitoire, il faut construire 
d'après l’équation (1.28) Ia courbe de x; (t). Cependant la solution 
peut être obtenue d'une manière plus simple en calculant, par 
exemple, l'intégrale 


fe | za (t) dt. (1.30) 
Ô 


Lette intégrale est définie sous sa forme générale comme une 
fonction des coefficients de l'équation (1.25) et des conditions ini- 
tiales sans qu'on ait besoin de connaître la fonction zx, {(t). Si le 
signe de x (t) ne change pas, par exemple x, (t) > 0 pour un ft > 0 
quelconque, la décroissance de l'intégrale 7, correspond en général 
à l'accélération du processus transitoire. C’est pourquoi 7, est consi- 
déré parfois comme le critère de « qualité » du processus transitoire. 
Mais pour des processus où zx, (t) change de signe, il se peut qu'une 
petite valeur de 7; correspond justement au cas d’un processus à 
faible amortissement et à allure oscillatoire bien marquée *). 
C’est pourquoi le domaine d'application du critère Z, est borné. 
Dans l'ouvrage [1.3] est proposé un autre critère: 


L= À x (4) dt. (1.31) 
0 


En choisissant convenablement les paramètres ou l'algorithme 
de l’organe de commande À dans le but de minimiser l'intégrale 7; 
on arrive souvent à obtenir une allure satisfaisante du processus 
transitoire. Le critère 7; a été appliqué aux systèmes de régulation 


*) Il ya des cas, toutefois, où l’on peut appliquer le critère 7; même lorsque 
l'allure du processus est nettement oscillatoire. Cf. l'article de A. Voronov dans 
la revue « Avtomatika i télémékhanika » (« Automatique et télémécanique »), 


n° 6, 1968. 
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automatique [1.4, 1.5]. Pourtant il n’est pas rare qu'avec ce critère 
on obtient des processus transitoires trop oscillatoires. On a donc 
proposé [1.6] le critère HR dit généralisé, 


1 = [ Y dt, (1.32) 
0 
où V est la forme quadratique des composantes transitoires zy; des 
coordonnées x1, - . ., æ, du Sr 
1% = 


L'interprétation physique du critère intégral généralisé peut 
être donnée par un exemple très simple dans lequel x; = x, est la 


° . | a dx . 
composante transitoire de l'erreur du système et ne = x. Soit 


C0 


= [ Let+ Ta di — | Er (+ T2 (Su) dt, (1.34) 
0 0 


où 7? — const. 
En choisissant les paramètres du système de façon à minimiser 
l'intégrale Zy, nous interdisons une existence durable des écarts 


[ee] 


importants Zg, (sinon la composante | x dt de l'intégrale Î, 
d 
sera trop grande), mais aussi celle des valeurs importantes des 
NT dx 34 : , C dx i4 2 1e r 
dérivées à (sinon c’est la composante | (=) dt de l'intégrale 
d 


4 qui sera trop grande.) On obtient ainsi un processus transitoire 
à Ia fois rapide et progressif, sans oscillations brutales. 

Les critères (1.30)-(1.32) s'emploient pour évaluer le processus 
transitoire x; (t). Pour apprécier un processus stable x, (f) on re- 
court à des critères d’autre type, dont nous donnons un exemple 

T | © | 

2h = lim F(z (dt= lim + | x? (E) dt + 
T— 00 

Û 

T ; T 
Lim | aitd+tlim# | xaædt. (1.35) 
T—00 T T=>00 T 

0 D 

D’autres types de critères d’optimalité établis pour des processus 
transitoires et stationnaires sont décrits dans [1.7-1:9]. 

Souvent on prend comme critère d’optimalité d’un processus 
transitoire le temps de régulation ou bien la valeur de l'écart maxi- 
mal du processus par rapport à une certaine grandeur imposée ou 
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à une fonction du temps. Dans ce dernier cas on exige pour un systè- 
me optimal le minimum de l'écart maximal, appelé minimax. 

Il importe ici d'insister sur le fait qu’on ne peut pas exiger 
que deux ou plusieurs fonctions d’une ou de plusieurs variables 
aient simultanément leurs extréma. En effet, les extréma des fonc- 
tions ou des fonctionnelles differentes ne “orrespondent pas en 
général à la même valeur de l’ensemble des arguments. Donc, il 
n'existe pas dans le cas général de valeurs des arguments donnant 
simultanément l’extrémum à deux ou à plusieurs fonctions et fonc- 
tionnelles. On peut seulement demander qu’une fonction ou 
fonctionnelle ait son extrémum, tout en imposant à d’autres fonc- 
tions et fonctionnelles des conditions de restriction supplémentai- 
res. Ces contraintes peuvent présenter un caractère complexe. 

Parfois on recourt à des critères composites. Supposons qu'il 


faut choisir un vecteur x tel qu’il minimise la fonction Q, (x), alors 
que Q; (x) < 0 (j = 2, ..., m). Ces dernières inégalités délimitent 
dans l’espace du vecteur z un certain domaine admissible qu’il ne 


faut pas dépasser. Formellement, les contraintes peuvent être en- 
levées si l’on fait appel au critère 


Q = Qi (@)+ 2 85 (0) O1 (), (1.36) 


les fonctions B; étant ici de la forme 


0 avec Q;,<0, 
Bts avec Q;>0 


Si le nombre y* est suffisamment grand, le point de minimum de 
la fonction © soit se confond avec le minimum ©, si ce dernier se 
trouve à l’intérieur du domaine admissible, soit repose pratiquement 
sur Sa frontière sans la dépasser. On peut construire les fonctions 
B; (Q;) également sous la forme de (1 + Q,)*, où &; © 1. Dans la 
formule (1.36) le critère est généralement difficile à analyser. Pour 
éviter les grandes valeurs des coefficients, la formule (1.36) peut 
être remplacée par la formule suivante: 


Q (x) — Bi (Q2 +, Om)" Qi () + à, B;(Q;) Q:(x), (1.38) 


| (=, ss mt): (1.37) 


B (0 On) f 1, Q;<0 (= 2,3: | 
Â 297 vers VmM 


7 {0 si au moins un des Q; 0; (1.39) 
f 1, Q;>0, 
P:(Qn= 1 0, Q;,<0. 
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Bien que la formule {1.38) devienne alors encore plus compliquée, 
elle se prête très bien au calcul machine et on l’applique dans cer- 
tains optimaliseurs automatiques (3.25, 6.61. 

Suivant le caractère du critère d’optimalité, on distingue les 
types suivants des systèmes optimaux : 

a) uniformément optimaux ; 

b) statistiquement optimaux ; 

c) régis par le critère du minimax. 

Dans les systèmes du premier type tout processus pris à part. 
est optimal. Aïnsi, quelles que soient les conditions initiales ou 
les consignes (ces dernières devant appartenir à une classe définie 
d'actions admissibles), dans des systèmes optimaux du point de vue 
de la rapidité d’action (cf. par exemple, [3.1-3.24]) l'objet est ramené 
à l’état imposé en un temps minimal. 

Dans les systèmes du deuxième type on n'exige pas ou on ne 
peut pas obtenir un comportement optimal dans chaque processus. 
particulier. Le critère d'optimalité © a ici une allure statistique. 
Ces systèmes doivent être optimaux en moyenne. Les critères sta- 
tistiques s'appliquent aux systèmes qui comportent sous telle ou 
telle forme des facteurs aléatoires. Donnons un exemple: il s’agit. 
du choix des paramètres &;, . .., a, d’un organe de commande À 
dont le schéma est imposé. Supposons que le critère de qualité 
primaire soit une fonction scalaire quelconque 


(@Z mé (1, s.., dx, x”, te.) xQ)) — Q (a, 20), (1.40) 


x® étant ici le vecteur des conditions initiales x®° (i — 1, ..., n} 
de A B et a le vecteur des paramètres aux coordonnées a; (j — 
PIS 

Le . 1 ne peut pas guider directement le choix des para- 
mètres a;, car des valeurs de a, optimales pour un type de condi- 
tions initiales 2°, ne le sont pas en général pour un autre type. 
Pourtant, si l’on connaît la densité de probabilité a priori P (x) 
du vecteur des conditions initiales, on peut prendre comme critère: 
la grandeur ©, l'espérance mathématique, ou comme on l’appelle 
en physique et en technique, la valeur moyenne de la grandeur Q:. 
Désignons l'espérance mathématique par M. Alors, comme nous. 
le verrons au chapitre II, 


Q—M{Q— | Qù (a, 2) P (ri) d@ (x). (1.41) 
Q (x9) 
Dans cette formule Q (1%) est le domaine de variation du vecteur 
x°, et dQ (x‘®) son élément infinitésimal. 
L'interprétation physique de cette estimation est dans le fait 
que, pour un très grand nombre d'expériences, la grandeur © se 
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confond pratiquement avec la moyenne arithmétique des valeurs ©, 
fournies par chacune des expériences. | 

Dans cette formulation du problème, le système optimal est 
<elui dont les paramètres a; minimisent la grandeur Q (en général, 
<ompte tenu des contraintes supplémentaires). 

Dans notre exemple on peut représenter les valeurs initiales 
aléatoires du processus transitoire comme le résultat de l’action, 
à l'instant initial, de brèves impulsions aléatoires. Ainsi, on est 
en présence d’un cas particulier de l’action sur l’objet d’une pertur- 


bation aléatoire z. On peut donner également un autre exemple 
très simple du système à critère d'optimalité primaire du type 


(x, x, u, z), où la perturbation z est une variable aléatoire 


de densité de probabilité P (z}. On peut prendre alors comme cri- 
tère d'optimalité la valeur moyenne © de la grandeur 0: 


Q=M{QI= | Qi, 2°, 0, à P() (D, (1.42) 
Q (2) 
Où Q (z) est le domaine de variation du vecteur de la perturbation 
z, et dQ(z) son élément infinitésimal. 

Les systèmes optimaux aux critères d'optimalité statistiques 
ont fait l'objet d'étude de plusieurs ouvrages (cf. par exemple [1.10], 
11.11], [1.42], 11.13). | 

Les systèmes du troisième type, dits systèmes minimax, ne 
sont optimaux par rapport aux autres systèmes que dans le pire 
des cas. Autrement dit, le pire des résultats d’un système minimax 
est meilleur que le pire des résultats de tout autre système. Une 
telle formulation du problème convient parfois lorsque les distri- 
butions des probabilités a priori sont inconnues. 


$ 4. Introduction de l'information sur l’obiet 
commandé dans un organe de commande 


Dans une branche importante de la classification des systèmes 
de commande on part du caractère de l'information sur [l’objet 
gouverné B fournie à l'organe de commande À ou mise en mémoire 
par cet organe avant le départ du processus de commande. 

Il faut d’abord distinguer les systèmes à information complète 
-et ceux à information incomplète sur l’objet. D’après ce qui précède 
{cf. également fig. 1.1), l'information sur l’objet gouverné se compo- 
se de: 

a) l'information sur son opérateur, c’est-à-dire sur la fonction 
ÆF (1.6); 

b) l'information sur la perturbation z subie par l’objet B ; 
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c) l'information sur l'état de l’objet B, par exemple sur toutes 
les grandeurs 1, ..., 4, d’un objet dont le comportement est 
défini par les équations (1.7); 

d) l'information sur le but de la commande, c’est-à-dire sur la 
fonctionnelle © (1.21); 


e) l'information sur la consigne x*. 

L'information complète sur une relation quelconque équivaut 
à Sa connaissance précise. Si toutes les composantes de l'information 
sur l’objet F5 indiquées ci-dessus Sont connues d’avance ou fournies 
au cours du travail, le système considéré est dit système avec infor- 
mation complète sur l’objet. En pratique, quels que soient les 
systèmes de commande automatique, l'information sur l'objet 
ne peut pas être considérée comme complète; souvent l'absence 
de telle ou telle information est d’une grande importance. Revenons 
encore à la figure 1.1; on y voit plusieurs canaux par lesquels l’in- 
détermination pénètre dans le système. Premièrement, c’est le 


canal de la consigne z* qui dans de nombreux cas est inconnue 


d'avance. Un autre canal est celui de la perturbation z qui repré- 
sente des variations aléatoires des caractéristiques de l'objet B, le 
plus souvent inconnues d'avance et ne se prêtant pas à la mesure 
directe. Il est fréquent que ce type d’indétermination est le plus 
important. Dans la majorité des cas c'est précisément à cause de 
l’indétermination des types considérés qu’on recourt à des systèmes 
de commande complexes. Si toute l'information sur l’objet était 
connue d'avance, on pourrait réaliser un système de commande 
en boucle ouverte où l'organe À serait muni d’un programme de 
commande établi d'avance. Aucun besoin n'est alors dans la théorie 
spéciale de la commande. Ajoutons aussi que dans un tel système 
hypothétique la boucle de réaction serait inutile. 

Pourtant, une boucle de réaction, tout en étant un outil puissant 
pour accroître la résistance aux perturbations du système, présente 
en même temps un canal par lequel d’autres perturbations pénètrent 
dans le système. Par ce circuit on transmet à l’organe de commande 
À les données sur l’état de l'objet B, par exemple les coordonnées 
Zi, + + +, Tn de l’objet défini par les équations (1.17) ou les grandeurs 
dx dn-1x | 
dt 9 + + es dtn-i 


l'équation (1.23). Souvent la grandeur x peut être mesurée avec 
une précision suffisante. Mais ce n’est pas du tout le cas de la dérivée 
première et surtout des dérivées d'ordre supérieur, ou, si leur me- 
sure est possible, les données obtenues sont entachées d'erreurs 
non négligeables. La dérivation multiple de la fonction x (f) est 
d'aucune aide. En effet, d’une part, tous les dérivateurs introduisent 
des erreurs. D'autre part, les faibles perturbations de hautes 
fréquences qui s’ajoutent inévitablement à la fonction x ({) don- 


équivalentes x, si l'objet est caractérisé par 
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nent lieu à des déformations des dérivées, d'autant plus grandes 
en général que l’ordre de la dérivée est. plus élevé. 

Il s'ensuit que les données sur l’état de l’objet sont fournies 
à l'organe de commande avec parfois de très grosses erreurs. Par 
conséquent, l'information sur l’état de l’objet est en pratique 
incomplète. On peut imaginer un schéma équivalent dans lequel 
les données sur l’état de l’objet seraient amenées à l’organe de 
commande après avoir passé par un canal aux perturbations aléatoi- 
res qui viendraient s'ajouter aux données. Un tel canal constitue 
précisément la troisième source de l’indétermination. 

Il faut dire également que tout organe de commande réel À 
donne lieu à des perturbations aléatoires internes. 

L'insuffisance de l'information sur l’objet rend nécessaire la 
collecte de l'information au cours de la régulation. En général, 
l'organe de commande d’un système automatique assure simultané- 
ment deux tâches étroitement liées mais différentes en principe. 
Premièrement, l'information qu'il reçoit lui permet de déterminer 
les caractéristiques et de juger de l’état de l’objet gouverné. Deuxié- 
mement, une fois ces caractéristiques établies, il devient possible 
de définir ce qu'il faut entreprendre pour assurer la commande 
convenable. La première tâche consiste à étudier l’objet, la deuxième 
à l'amener à l’état imposé. [l se peut qu'un système simple n'assure 
qu'une de ces tâches, alors que l’autre ou bien n’est pas du tout 
accomplie ou bien est réduite au strict minimum. Dans les systèmes 
complexes les deux tâches sont obligatoires. | 

Le processus de l'étude de l’objet gouverné ressemble à celui 
de l’acquisition par l’homme de nouvelles connaissances. Ce peut 
être l'information communiquée par une autre personne, les résul- 
tats de l'observation ou les résultats d’une expérience. Les systèmes 
optimaux peuvent être également de trois types définis par le mode 
d'acquisition de l'information : 

a) systèmes optimaux à information complète sur l’objet gou- 
verné ou à information maximale au possible (cf. chapitres III 
et IV); 

b) systèmes optimaux à information incomplète sur l’objet 
et son accumulation indépendante (ou passive) au cours du processus 
de commande (cf. chapitre V); 

c) systèmes optimaux à information incomplète sur l’objet 
et son accumulation active pendant le processus de commande 
(commande duale) (cf. chapitre VI). 

Nous avons admis dans ce qui suit que l’organe de commande À 
dispose d’une information complète a priori sur l'opérateur F de 
l’objet et sur le but de la commande, c’est-à-dire sur la fonction- 
nelle Q. Si, de plus, le système reçoit une information complète 
sur la consigne z* (c’est-à-dire tous les renseignements possibles 
sur cette grandeur dans le passé, au présent et dans l’avenir), une 
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information complète sur la perturbation z (y compris la connaissance 
exacte de son comportement ultérieur) et, enfin, une information 


courante complète sur l'état x dé l’objet à l'instant £ considéré (et 


ceci permet, lorsque x () est donné, de prédire le comportement 
de l’objet dans l’avenir), on l'appelle alors système à information 
complète (dans l’organe de commande) sur l’objet gouverné. 

Jusqu'à des temps récents la branche de la théorie des systèmes 
optimaux étudiant les systèmes à information complète évoluait 
indépendamment d’une autre bran- 
che apparue à peu près simultané- Tr, p* 
ment avec la première. Cette der- | 
nière partait non pas des actions de x" y” y" | Z 
commande connues a priori, mais a en 
des caractéristiques Haas des b) | p* 
signaux d'entrée aléatoires. On ne é ET nn 
disposait. donc pas d'information F— HE A EE 2 = 
complète. Le problème. principal ER eee Je 
étudié par cette seconde branche : 
intéresse le système dont le schéma (© É | 
fonctionnel est représenté sur la et = 
figure 1.4,a. D'abord le système 
entier est considéré comme un fil- 
tre F. La consigne x* est injectée 
dans le filtre non pas directement, 
mais par un canal de liaison ou; Fig. 1.4. 
<en général, par un système donné /7* 
dans lequel elle s'ajoute à la perturbation aléatoire ou au bruit h*. 
Ainsi le mélange y* du signal avec le bruit est amené à l'entrée du 
filtre F. Le rôle du filtre est de fournir à sa sortié une grandeur x 
voisine au possible, dans un certain sens statistique, de x* ou 
du résultat d'une certaine transformation dè x*. 

Après avoir résolu ce problème, on peut s'attaquer au problème 
suivant qui consiste à démembrer le filtre. F en objet B et en organe 
de commande À. Ces parties de F peuvent être connectées en série 
comme sur la figure 1.4,b pour former un système en boucle ouverte, 
ou d’une autre façon quelconque. Ainsi, le filtre F de Ia figure 1.4,c 
comporte. une boucle de réaction. Dans les cas courants l’objet B 

est donné d’avance, alors que l'algorithme de l’organe de commande 

À est à définir. S'il s ‘agit d’un filtre optimal linéaire, sa division 
en parties À et.B n'entraîne pas de grosses difficultés *). Mais si 
le filtre optimal est non linéaire, le problème de dislocation se 
complique considérablement. Il est alors plus commode, avant de 
s'attaquer au calcul, d'imposer le schéma fonctionnel du filtre F 
pour. lequel on recherche ensuite l'algorithme de la partie A. 


*) Même dans ce cas ie ee n'est pas toujours résolvable. 
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Toutefois l’étude des filtres non linéaires n’est qu'à ses premiers 
pas (cf. [1.101], [1.11], [1.17], 1.18). Les ouvrages dans ce domaine, 
depuis les recherches de A. Kolmogorov [1.14] et N. Wiener 1.15], 
dans leur grande majorité posaient et résolvaient des problèmes 
relatifs aux systèmes optimaux linéaires (cf., par exemple, [1.10], 
[1.11], [1.12], [4.13], [4.16], [1.20]-11.26)). 

Le deuxième groupe de systèmes optimaux dont nous avons. 
parlé plus haut se distingue par ce que le processus d’accumulation 
de l'information sur x* est indépendant de l'algorithme ou, autre- 
ment dit, indépendant de la stratégie de l’organe de commande À. 
En effet, l’accumulation dè l’information consiste à observer les 
valeurs y* et à construire, d’après ces observations, des hypothèses 
sur le processus z*. Le processus de l’observation ne dépend pas 
des décisions adoptées par l'organe À sur le caractère du processus x*. 
On ne peut qu'utiliser correctement l'information fournie par l’observa- 
tion, mais il est impossible de l’accroître, quelle que soit la straté- 
gie de l’organe de commande. On appelle les systèmes de ce type 
systèmes optimaux à accumulation passive, ou indépendante, de 
l'information {indépendante de la stratégie de l’organe de comman- 
de). Si l’action x* est irrégulière, ses caractéristiques peuvent être 
données de plusieurs façons: 

a) æ* (t) est une fonction d'une classe connue, par exemple, 


a+ (t) = 2 Ci (6), (1.43) 


où 1; (à) sont les fonctions connues et C’; les variables aléatoires aux 
caractéristiques probabilistes connues. De plus, k* (é) est une fonc- 
tion aléatoire dont les caractéristiques probabilistes sont également 
connues. Dans ce cas, plus la durée de l’observation de y* à la sortie 
du canal H* est grande, plus la prévision du comportement futur 
de x* (t) est précise, par exemple en précisant les valeurs des coeffi- 
cients C; dans la formule (1.43). 

b)} x* (f) est une fonction aléatoire; les caractéristiques proba- 
bilistes dont on dispose sont telles que la connaissance précise de son 
passé ne permet qu'une prévision de son FURUr. On ne peut donc 
qu’améliorer ces prévisions en observant y* (t) et en précisant 
d'après les résultats observés les valeurs anciennes et actuelles de 
x* (it). Pourtant, la prévision du comportement de la fonction x* (t} 
ne sera jamais aussi précise que l’on veut. 

c) z* (t) est une fonction aléatoire à caractéristiques proba- 
bilistes totalement ou partiellement inconnues. Dans ces conditions 
le problème se ramène à établir ou à préciser par observation de la 
grandeur y* (é) les caractéristiques probabilistes de x* (t), ce qui 
rend possible de prévoir avec beaucoup plus de précision le comporte- 
ment futur de x* (4) (cf., par exemple, 5.32, 5.33P. 
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Les ouvrages [6.1, 6.2] traitent certains problèmes du troisième 
groupe des systèmes optimaux. Ce groupe a des traits communs avec 
le premier et le deuxième groupe, tout en gardant sa particularité. 

Le schéma fonctionnel donné par !6.1, 6.2] est reproduit sur la 


figure 1.5. L'action de commande uw est amenée à l’objet B par le 
canal de liaison G dans lequel elle s'ajoute à la perturbation aléatoire 


(bruit) g. On comprend qu’en général l’action v à l'entrée de l’objet 
B diffère de u. L'information sur l’état x de l’objet passe ensuite 


7 | 


& 
8 


Fig. 1.5. 


par le canal de liaison A où elle s’ajoute à la perturbation aléatoire 
(bruit) À pour se transformer en grandeur y et être amenée à l'entrée 


de l’organe de commande À. L’action extérieure x* passe par le 
canal F* de même que sur la figure 1.4. Le canal G avec la pertur- 


bation g peut être inclu dans l’objet B, g devenant alors composante 


du vecteur de la perturbation z de l’objet. Les autres blocs sont. 
essentiellement indépendants. Dans le schéma à boucle fermée de la. 
figure 1.5 se produisent les processus qui n’ont pas d’analogues: 
dans les Systèmes de commande à boucle ouverte. Il devient possible 


alors d'étudier la perturbation z, c’est-à-dire, au fond, les caracté- 
ristiques de l’objet B à variation aléatoire, non par l'observation 
passive, mais par une méthode active, en faisant appel aux « expé- 
riences » rationnelles. C’est comme si l’on « tâtait » l’objet par des 


actions d'essai uw, alors que les résultats y de ces actions étaient ana- 
lysés par l’ organe de “ommande À. Le but de ces actions est de: 
contribuer à une étude plus précise et plus rapide des caractéristiques 
de l’objet B et de favoriser ainsi l'établissement d'une meilleure: 
loi de la commande de l'objet. 

Pourtant l’action de commande est nécessaire non seulement. 
pour étudier l’objet, mais encore pour l'amener à l’état imposé. 
C'est pourquoi dans le schéma de la figure 1.9 Les actions de comman- 
de doivent avoir un caractère dual: elles doivent assurer à la fois 
l'étude et le guidage de l’objet, d’où le nom des systèmes de ce 
type — systèmes duals [cf. 6.1]. La dualité de la commande est 
le facteur physique principal qui distingue le troisième groupe 
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des systèmes optimaux des deux premiers. Pour le premier groupe, 
la commande duale est inutile puisque l'organe de commande reçoit 
une information complète sur l’objet. Pour le deuxième groupe la 
commande duale est impossible du fait que l’information est accu- 
mulée uniquement par l’observation et la vitesse du processus 
d’accumulation ne dépend aucunement de la stratégie de l'organe 
de commande. 

La troisième branche de la classification des systèmes optimaux 
examinée dans ce paragraphe (cf. fig. 1.2) est intimement liée aux 
problèmes d'obtention de l'information nécessaire pour la commande. 
C’est précisément en ce point crucial que les méthodes statistiques 
viennent en aide à la théorie des systèmes optimaux. 


$ 9. Formulation des problèmes de la théorie 
des systèmes optimaux 


On voit de ce qui précède que la diversité kaléidoscopique de 
types des systèmes optimaux ne fait pas obstacle à leur systémati- 
sation dans le cadre d’une classification relativement restreinte. 
Ceci permet une approche commune des problèmes que posent ces 
systèmes. Actuellement il devient possible d'édifier une théorie 
générale unique des systèmes optimaux, donnant la formulation 
des problèmes généraux et décrivant. les méthodes de leur résolu- 
tion. Dans ce qui suit nous formulons des problèmes généraux de 
cette théorie. L'étude des problèmes concrets, spécifiques à diverses 
branches de la théorie, fait l’objet des chapitres suivants. 


Supposons donnés l'opérateur de l’objet Flu, z, #] et le but 
de la commande sous la forme de la fonctionnelle Q. Si les’ actions 
extérieures appliquées au système (fig. 1.5) sont aléatoires, supposons 
connues leurs caractéristiques probabilistes. Les fonctions régulières 
peuvent être aussi considérées du point de vue probabiliste, leur 
moyenne étant une fonction du temps, alors que la variance (mesure 
de la dispersion des valeurs d’une grandeur aléatoire d’une expé- 
rience à l’autre) est nulle. Soit dans le cas général les opérateurs 
des circuits 4*, H et G de la figure 1.5. Supposons également Le 
les contraintes soient données sous la forme (1.16) ou (1.17), 
encore (1.19). Imposons-nous aussi la classe des fonctions 
Dans les cas courants, uw (f) est considérée comme appartenant 
à la classe des fonctions continues par morceaux à nombre fini de 
points de discontinuité de première espèce dans un intervalle fini 
quelconque *)}. 

Le problème consiste à trouver, pour des conditions données, 
l'algorithme ou, comme on dit parfois, la stratégie de l'organe de 


‘" #) Certains auteurs étudient les régimes dits « glissants » où ce nombre est 
infini (2.28, 2,29]. 
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commande À, qui minimise le critère d’optimalité Q. La stratégie 
de ce type est dite optimale. 

Dans le cas général une stratégie optimale peut être aléatoire. 
Cela signifie que l'organe de commande prend une décision aléatoire 
et peut fournir à sa sortie à l'instant £ une grandeur aléatoire w. 
Toutefois, la caractéristique probabiliste {x (1)} de cette grandeur 
(sa densité de probabilité, par exemple) dépend d’une façon optimale 
de toute l'information antérieure reçue par l'organe de commande À 
et des actions qu'il a réalisées, c'est-à-dire de l’allure des fonctions 
y (D), y* (D et u (r) (fig. 1.5) pendant l'intervalle de temps x depuis 
J'instant initial # jusqu'à l'instant courant #, donc 4 &T<t 
(dans le cas particulier, 5 = —o). La relation entre L'{u (#)} et 
les fonctions indiquées ci-dessus ainsi que le temps # s'écrit sous 
la forme symbolique suivante: 


lR()}=T Ep (0, ya), ut), 0 (b<T<, (144) 


et se lit: fonction L de u (i) sous la condition que y*, y et u soient 
données dans l’intervale de £, à £. 
La stratégie optimale peut être régulière dans ce cas particulier, 


l'une des valeurs possibles de x (A a une probabilité égale à l'unité, 
alors que les probabilités de toutes les autres valeurs sont nulles. 
La stratégie optimale régulière s'exprime par la relation 


u(t)=Kly*(r), vtr), u(v), 4 (G<T<t), (1.45) 


K étant également une fonctionnelle, c’est-à-dire un nombre défini 
par le type des fonctions y* (t), y (t), u (t) dans l'intervalle t, < 
Te 

Dans le cas particulier des systèmes à information complète, 
lorsque les circuits Æ*, et G de la Heure 4.5 sont absents, alors 


que z et x* sont régulières et peuvent être inclues dans l'opérateur 
de l’objet et le critère © respectivement, l’expression générale (1.45) 
de l’algorithme d'un système optimal devient encore plus simple 
et se met sous la forme 


u(=K[z(r), ufr), | (bo<T<. (1.46) 


Si l’état courant de l’objet caractérisé par le vecteur x définit 
tout son comportement ultérieur indépendamment de la « préhis- 


toire», c'est-à-dire des valeurs z(t) et uw (x) pour x << # (si, par 
exemple, l’objet est décrit par des équations du type (1.7) et ne 
contient ni retards ni relations non univoques), alors w (#) à l'instant 
t considéré est une fonction de la valeur de x à ce même instant f: 

u (t)= K [x(t), t]. (4.47) 


8—0966 
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Enfin, si les équations de la trajectoire ne contiennent pas 
explicitement le temps # (les systèmes correspondants s'appellent 
souvent stationnaires), l'algorithme optimal se trouve sous la forme 
d’une fonction 


u (t) = X [(z (1, (1.48) 
ou, sous une forme condensée, 
u=k [x]. (1.49) 


Dans le cas particulier d’une seule action de commande u, la 

formule de l'algorithme optimel s'écrit 
u = K [xl]. (1.50) 

Il convient donc de trouver dans ce cas la fonction scalaire Æ° 
de l'argument vectoriel x, c’est-à-dire de la position du point repré- 
sentatif (extrémité du vecteur x) dans l’espace de phase du système. 
Autrement dit, & est La fonction de #2 variables æ41, . . ., æ,. 

Le problème de la recherche de la stratégie optimale s'appelle 
parfois problème de la synthèse du système optimal, ce qui n’est pas 
très juste, car il existe un très grand nombre de systèmes différents 
réalisant le même algorithme. 

Le problème de la recherche de la stratégie optimale ou de l’algo- 
rithme d’un organe de commande est fondamental pour la théorie 
des systèmes optimaux ; depuis la fin des années 1940 il fait l’objet 
de différentes branches de cette théorie. Pourtant, il existe un autre 
problème, celui de la définition des processus optimaux, c'est-à-dire 
de la recherche dés processus w (4) et x (f) en fonction du temps pour 
des conditions initiales 2°. Ce n’est pas un problème principal, mais 
dans la plupart des cas il constitue une étape préalable dans la 
résolution du problème fondamental. 
= La recherche du processus optimal étant parfois intéressante 
par elle-même, nous allons en donner la formulation pour une classe 
définie de systèmes à information complète sur l’objet. Supposons 
que le comportement de l’objet soit décrit à l’aide de #7 équations 
de premier ordre du type (1.7) pour les coordonnées 241, . .., x, 
où à l’aide d’une équation vectorielle 


D (E üt), (1.51) 


où f; sont Jes fonctions continues et déivables par rapport à leurs 
arguments. 

_ Soit 2° la valeur initiale. de x à l'instant = to. La figure 1.6 
représente le point aux coordonnées : 


—{0 Û 0), ur 
20 (a, 2, af (1.52) 
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dans un espace de phase de dimension #7 d’un système aux coordon- 
nées cartésiennes 2x1, . .., &,. Dans l'exemple schématisé par la 
figure 1.6 l’espace de phase est tridimensionnel. Maïs tous les 
raisonnements qui suivent sont également valables pour un r quel- 
conque. 


L'action de commande w (t) produit un déplacement du système 
suivarit une trajectoire dans l'espace de phase; à l'instant & = T 
le point représentatif vient en (7). Soit x®) le point d’un certain 
sous-ensemble 2 des points de l’espace de 
phase. Le sous-ensemble P peut être, par 
exemple, à une dimension, c'est-à-dire 
représenter une courbe dans un espace de 
dimension #7. Dans un cas particulier, le. 
sous-ensemble P peut se confondre avec 0. 
l’espace de phase. Le problème s'appelle OM 
alors problème à l'extrémité libre de trajec- 7 * 2 
toire. Dans ce qui suit nous allons étudier x, 
deux cas : a) P dégénère en un point fixe x(T), 
alors que la durée T n'est: pas fixée d’avan- 
ce; b) problème à extrémité libre de trajec- 
toire lorsque T est fixé. Pourtant les méthodes décrites de résolu- 
tion des. problèmes sont applicables au cas général examiné dans 
le chapitre IT. 


Supposons que les contraintes imposées au vecteur u soient 
du type (1.16) : 


tr) 
Th Tr 


Fig. 41.6. 


uEQ (u). | (1.53) 
Appelons action de commande admissible une fonction continue 
par morceaux u (? vérifiant la contrainte (1.53). Le problème du 
processus optimal consiste à rechercher une action de commande 
admissible w (£) et une trajectoire respective zx (t) de l’objet telles 
que la trajectoire du point représentatif x dans l'espace de phase 
qui passe de la position initiale 2% à la position a(T), appartenant 
au sous-ensemble P, minimise une certaine fonctionnelle ©Q. Mettons 
cette dernière sous la forme d’une intégrale (avec to — 0) 
“4 
Q= [GR 4,18, (1.54) 
Ÿ | 
où: G est une fonction scalaire finie et généralement positive de x, 
u et é. Notons que formellement on peut faire disparaître t des expres- 
sions (1.51) et (1.54)- en introduisant une coordonnée supplémentaire 
Tny1 AVeC la condition {z,21):=0 = 0 et 
dXn4i 
TS = 1. (1.55) 
9% 
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Puisque avec ces notations z,,1 = {, on peut remplacer partout 
t par Znys Le nouveau système d'équations (1.51) et l’équation 
(1.55) ne comptent pas d’argument £ sous une forme explicite, mais, 
par contre, sont caractérisés par nr + 1 coordonnées zx4, . . ., x,, 
Æns1. Ainsi on peut se borner à des équations ne contenant pas £ 
explicitement, ce que nous allons faire souvent dans Îa suite. 


Si dans le cas particulier du problème à point final fixé x(T) 
et à la durée 7 non fixée d’avance on pose dans la formule (1.54) 
G = 1, on a Q = T. Cela signifie que la condition Q = min se 
transforme en Ÿ = min. On se trouve alors devant le problème 
de régulation en temps minimal qui consiste à rechercher une loi de 
commande uw (?) telle que le point représentatif z soit déplacé d’une 
position fixée z‘° en une autre position fixée z(T) en un temps mini- 
mal 7. 

Ajoutons aux coordonnées 21, . .., æ, la coordonnée xs, avec 
(To)t—0 et 


d 
= G [2 is ns Up ass Ut (1.56) 


En comparant les expressions (1.54) et (1.56) on voit que 


Q=(m)t=r =), (1.57) 

c'est-à-dire que le critère d'optimalité © est égal à la valeur x 
à l'instant final £ — 7. L'interprétation géométrique de ce fait 
(fig. 1.7) est donnée par un espace 


2 de dimension (nr + Î) aux coordonnées 
0 


Lg Lis + + +, Xn. dans lequel la trajec- 
toire de phase passe du point x° appar- 
tenant à l’hyperplan (x, . .., zh) 


jusqu’au point dont les coordonnées 
(ts, +. ., Zn) Sont fixées, alors que la 
Amp —— | coordonnée x, ne l’est déjà plus. Par 
| conséquent, M repose sur la perpendicu- 
laire élevée du point «7 de l'hyperplan 
xzo = O et parallèle à l’axe xç. Il faut 
trouver une commande u ({) minimisant 
la valeur finale x,(T) de la coordonnée xs. 
Dans les cas particuliers des problèmes de la théorie des systèmes 
optimaux à information incomplète, l'expression (1.45) de la fonc- 
tionnelle X peut être simplifiée de diverses façons. Supposons 
que la boucle de réaction soit absente. Alors y ne figure pas dans 
la formule (1.45) et 


u (D = Kly* (r), u(r, 4 (bb ET<b. (1.58) 
Remarquant qu'aux instants passés uw (t) était fonctionnelle 
d’un seul argument y*(t), on peut écrire l'algorithme (1.58) comme 


: (0) 
4 z; T 


Fig. 41.7. 
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suit : 
LU (é) — K [y*(r), t} (to T << L). (1.59) 


Si le problème consiste à trouver l’algorithme du filtre F, repré- 
senté sur la figure 1.4,a, ou bien si l’on peut admettre que l’opéra- 
teur de l’objet B de la figure 1.4,b est unitaire (c'est-à-dire que la 
grandeur de sortie est égale à celle d'entrée), dans la formule (1.59) 
on peut remplacer x par x. Si, de plus, le filtre F est stationnaire 
et t, — —oo, il vient 


zx (D = Kly* (D (—o<Tr<h. (1.60) 


Dans le cas particulier d’un filtre à canal unique, x et y* sont 
des scalaires. Alors 


z (D = Kly* (91 (—o <Tr<h. (1.61) 


Si, par exemple, le filtre F appartient à la classe des systèmes 
linéaires à coefficients constants, la formule pour À peut être mise 
sous la forme de l'intégrale de convolution 


t 


2()= | pU—r)y" (TD dr, (1.62) 


— 


où œ (t) est la réponse impulsionnelle du filtre ou, comme on l’ap- 
pelle souvent, la fonction de pondération. Soit A*{é) et x*(i) des 
processus aléatoires stationnaires (cf. chapitre II) et 


+ (0 = ht) + 2 (D), (1.65) 


alors que le critère d’optimalité s’écrit 
T 
Q= lim | Le* (4) — x (0° dt, (1.64) 
T'—00 v 


c'est-à-dire constitue une erreur quadratique moyenne. Le problème 
du système optimal prend alors la forme d'un problème qui consiste 
à définir la fonction de pondération @ (?) d’un filtre physiquement 
réalisable vérifiant la condition 


pO=0 (t<0) (1.65) 


et minimisant le critère d’optimalité Q. Nous avons abouti ainsi 
au problème de filtration linéaire optimale résolu par N. Wiener 
dans [1.15]. Il se trouve que pour résoudre ce problème on n’a pas 
besoin de disposer de données exhaustives sur les caractéristiques 
probabilistes des processus h*({) et x*(t). Il suffit de connaître les 
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fonctions de corrélation de ces processus, relativement simples 
à définir à base des expériences. Les ouvrages de A. Koïlmogorov 
(1.141, A. Khintchine [1.19] et N. Wiener [1.15] ont jeté les fonde- 
ments de la théorie de corrélation des systèmes optimaux linéaires. 
Nous ne nous attarderons pas à l’étude de cette théorie, car il existe 
déjà dans ce domaine un très grand nombre de monographies et de 
manuels. Les problèmes optimaux aux contraintes supplémentaires 
imposées à l'organe de commande À {dans le cas considéré, l'exigence 
de linéarité) ne sont pas examinés non plus dans notre ouvrage. 
Le lecteur s'intéressant aux divers aspects de cette théorie peut 
consulter [1.10]-[1.13], 11.16]-[1.18]), [1.201-11.261]. 


CHAPITRE II 


MÉTHODES MATHÉMATIQUES APPLIQUÉES 


À LA THÉORIE DES SYSTÈMES OPTIMAUX 


$ 1. Eléments de calcul des probabilités 


Dans le premier chapitre nous avons souligné le rôle des méthodes 
statistiques dans la théorie des systèmes optimaux. Pour la bonne 
compréhension de cette théorie il importe au préalable de traiter 
des éléments de base du calcul des probabilités et de la statistique 
mathématique. Ce paragraphe a pour objet de donner un résumé 
sommaire des concepts et des formules nécessités par l'exposé qui 
suit. Le lecteur désireux d’avoir des connaissances plus profondes 
de la théorie des probabilités et des méthodes statistiques peut 
s'adresser à plusieurs manuels et monographies, dont, entre autres, 
12.1-2.4, 1.10-1.13]. De plus, certains éléments de statistique supplé- 
mentaires seront donnés dans les chapitres IV, V et VI. 

La théorie des probabilités a pour objet l’ étude de trois classes 
de phénomènes aléatoires. A la première on rapporte les phénomènes 
les plus simples dits événements aléatoires. La deuxième, plus comple- 
xe, comprend les variables aléatoires. Enfin la plus complexe traite 
des processus aléatoires. 

Un événement aléatoire À est caractérisé par un nombre P (À), 
dit probabilité, on sait de plus que 0 & p (4) 1. Pour un événe- 
er certain p (À) — {, pour un événement impossible P (4) — — 0. 

Si les événements À, A3, .:.., Am sont incompatibles, c'est-à- 
dire si deux quelconques d’entre eux ne peuvent se produire au cours 
d’une même épreuve, la probabilité p (4) de la réalisation au moins 
d’un seul de ces événements est exprimée par la formule 


p(4)= Z p(4). (2.1) 


L'événement À est souvent noté comme suit: 4 — À, +. 
. + 4». Le signe « plus » remplace ici le terme logique « ou ». 
gi l’un des événements À; (à — 1, ..., m) est certain, p (À) — 
= Â et 
m 


23.p (45) — 1. (2.2) 
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Les événements À,,..., À, dont les probabilités vérifient 
l'égalité (2.2) forment ce qu’on appelle système complet. 

Supposons qu’au cours d’une Série d'épreuves, effectuées dans 
des conditions déterminées, peut apparaître un événement aléatoire 
À avec une probabilité p (A) que nous appellerons dès lors incondi- 
tionnelle, ou absolue. 

Supposons également que ces épreuves font apparaître un autre 
événement aléatoire B avec une probabilité inconditionnelle p (B). 
Prenons de toutes les N épreuves seulement les NV, qui ont donné 
lieu à l'événement B. Supposons que de toutes ces N, épreuves 
seule la partie NA,g est caractérisée également par l'apparition 
de l’événement À. Le rapport N4,8/N 3 s'appelle fréquence de l’évé- 
nement À sous la condition de la réalisation de l’événement B, dite 
encore fréquence conditionnelle de l'événement À. Pour un grand 
nombre d'épreuves W, le rapport NA;£/N, diffère pratiquement 
peu d’un certain nombre que nous allons désigner par p (4 |B) 
et appeller probabilité conditionnelle de l'événement À (sous la con- 
dition de la réalisation de l’événement B). 

Ce qui précède rend clair que V4,4 est le nombre d'épreuves 
qui ont donné lieu aux deux événements À et B. Lorsque NW est grand, 
le rapport N4,/N ne diffère que peu de la probabilité de l’événe- 
ment € consistant en une réalisation simultanée des événements 
À et B. On emploie souvent la notation € — AB, le signe de multi- 
plication correspond ici à la conjonction « et » logique. Ainsi p (C) — 
— p (AB). Etant donné que 

Nas Nas Np 
Ne NS ne (2.3} 
on peut écrire (par analogie) l'expression relative aux probabilités 
qui sont associées à ces fréquences : 
p (4B) = p (A|B)-p (B). (2.4} 

Les événements À et B étant équivalents, un raisonnement 

analogue conduit à une formule où À et B changent de place: 


p (AB) = p (B|A):p (4). (2.5) 


Ainsi 
p (AB) =p(AIB)p(B) = p(B|4)p (4). (2-6) 
Les événements À et B sont indépendants si l’apparition de l'un 


d'eux n’influe pas sur la probabilité de l'apparition de l’autre. 
L'événement À ne dépendant pas de B, p(4A | B) — p (À) et Ia 


formule (2.6) devient 
p (AB) = p (4) p (B). (2.7) 


Les événements À4,, ..., À, sont dits deux à deux indépendants 
si deux quelconques d’entre eux sont indépendants. Mais si, de plus, 
les produits quelconques de ces événements À;,, Ai, ..., À;j, et 
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À;,; À; bete À;, sont également indépendants et ne comptent 
pas de facteurs communs, les événements À,, ..., A, S’appellent 
indépendants. 11 se peut, et nous insistons sur ce fait, que les concepts 
d'indépendance et d'indépendance deux à deux peuvent ne pas 
coincider. | 
L'application successive de la formule (2.6) donne 

P (4142... 4%) = p (4) p (421 4i) ... 

+ % P (Am | À, À), “à à 4 AS 1): (2.8) 


Dans le cas des événements indépendants l'expression (2.8) se 
simplifie et s'écrit 

P (4142... Am) = P (41) p (42)... p (A»). (2.9} 

Soient A1, ..., Am les événements incompatibles formant un 

système complet. Alors À = A, +...+ 4, est un événement 


certain et la probabilité de n’importe quel autre événement B peut 
s'exprimer de la façon suivante: 


p(B)=p(BA)=plB(4+...+4An)] = 
= p (BA;+BAy+ ... + BAm) À p(BAi), (2.10) 


les événements BA; et BA; étant incompatibles pour i = j. Par 
ailleurs, on tire de (2.5) 


p (BÀ;) = p (4i)p (B1A))- (2.11) 
En portant cette expression dans (2.10) il vient 
p(B)= 2 p(43 p(B|4)). (2.12) 


Par conséquent, (2.6) et (2.12) permettent de mettre l'expression 
de la probabilité conditionnelle p (4; | B) sous la forme suivante : 


À; B| 4: A;)p(B| 4; : 
S P(4i)p(BlAi) 
i=1 


Cette formule établie en 1784 par Bayes porte son nom. 

Une variable aléatoire est une notion plus complexe qu'un 
événement aléatoire. C'est une grandeur dont l'épreuve établit 
une et seulement une valeur tirée d’un ensemble de valeurs possibles. 
C’est pourquoi une variable aléatoiré est définie non seulement par 
l’ensemble de ses valeurs possibles mais aussi par leurs probabilités. 
Soient zx, . . ., x, les valeurs possibles discrètes de la variable 
aléatoire £ (7 pouvant être fini ou infini}. Il faut alors se donner 
les z probabilités du type p; = p (x;), où p; est la probabilité de 
l'événement aléatoire traduit par la réalisation de la valeur zx; 
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de la variable aléatoire €. [1 est clair que 


> pi=i (2.14) 


ï 


du fait que, par définition de la variable aléatoire, pour des à diffé- 
rents, les événements £ = x; sont incompatibles et, de plus, ils 
forment, toujours par définition, un système complet. Quand les 
valeurs de la variable aléatoire £ sont quelconques dans un certain 
intervalle, sa caractéristique probabiliste doit être donnée sous 
une autre forme. La forme la plus générale est la fonction de réparti- 
tion F (x), dite encore fonction cumulative, donnant la probabilité 
de l’événement aléatoire £ << x, où x est un seuil fixé à l’avance: 


F(x) = p(E< 2). (2.15) 


Connaissant F (x) pour des x quelconques, il est facile de trouver 
a probabilité pour Ë de tomber dans l'intervalle à & € << b. En 
effet, puisque les événements Ë << a et a < Ë << b sont incompatibles 
et leur somme est l'événement E << b, on peut écrire 


pP(E<b) —=p(E<a)+p(a<EËE<b). (2.16) 
On en déduit 


pia<E<b) =pE<b) —p(E <a) —F(b) — F(a). (217 


Si F' (x) est continue et dérivable dans tout l'intervalle —o0 << 
<Z x << ©, la variable aléatoire correspondante & est dite continue. 
Posons 


adF FO 


P(x)= 


La fonction P (x) s'appelle densité de probabilité de la variable 
aléatoire Ë. Etant donné que 


F(e+Az)—F() 
CAT 


= F' (x). (2.18) 


— Jim PESÉ<ETAT) (2.19) 


x—+0 Az 
P (x) Ax est, à des infiniment petits d'ordre supérieur o (A x) près, 
la probabilité pour la variable aléatoire 6 de tomber dans l'intervalle 
infiniment petit x SE zx + Az. Ensuite, la probabilité pour 
la variable £ de se trouver dans l'intervalle a < & << b est donnée 
par l'expression 


p(a<E<b)=F(b)—F (a)= | P(x)dz. (2.20) 


QT 
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On en tire 


ET de = F(o)—F(—c)=—1. (2.21) 


Des caractéristiques importantes bien que non exhaustives d'une 
variable aléatoire £ sont ce qu'on appelle ses moments. Un moment 
d'ordre k est un nombre donné par l'intégrale 


ax = | 2 P (x) dx. (2.22) 
Le moment d'ordre un «, dit espérance mathématique où valeur 


médiane d'une variable aléatoire et noté m4 ou M{E} présente un 
intérêt tout particulier : 


me = M LE) = a — | xP (x) dx. (2.23) 


On appelle moment centré d'ordre £ et on désigne par u4 le mo- 
ment d'ordre # de la différence (£ — me): 


ue = M {E—m)"}= | (x— ma)" P (x) de. (2.24) 


Le moment centré d'ordre deux s’appelle variance; il est noté D: 
ou D{£} et joue un rôle particulièrement important: 


Di=D{E}=M{E—m)}— | (e— me) Pc) da. (2.25) 


— 00 


La variance caractérise dans une certaine mesure la dispersion 
des valeurs d'une variable aléatoire Ë autour de sa valeur médiane. 


m:. La grandeur V D sé nomme écart-type et se note 64: 
GC =.ÿ De. (2.26) 


Dans le cas général c’est une grandeur différente de la moyenne 
quadratique de £ que nous allons désigner par En. et définir par 
la formule 


Enal = | 2P(a) de. (2.27) 


Les expressions (2.25) et (2.27) ne coïncident que dans le cas 
où ME — 0, 
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L'espérance mathématique d’une fonction quelconque f (£) = 
de la variable aléatoire & est donnée par l'expression 


00 


M{n}=M{f(@}= | f(x) P (x) dx. (2.28) 


— 00 


La loi de répartition des variables aléatoires la plus usitée est. 
la loi normale, ou la Loi : Au telle que 


2 
P (= exp {— Enr}, 2,29) 
m, et 6, sont ici des constantes égales respectivement à la valeur 
moyenne et à l’écart-type. 
Pour la loi normale, la fonction de répartition est donnée par 
la formule 


F (x) — | P (9 d=— _ si exp { — EneL | dr = 
= ï exp {+ dt. (2.30) 


La théorie des probabilités fait a la fonction 
1 #2 


Cette intégrale ne s'exprime pas par des fonctions élémentaires. 
La fonction ® (u) est tabulée. IL est évident qu'elle est impaire, 
c'est-à-dire que ® (— u) — —® (u). La comparaison de (2.30) 
et de (2.31) montre que dans le cas de la loi normale 


TI My 
F(x)=©® (=) : (2.32) 

Considérons un circuit non linéaire et sans inertie dont la relation 
entre la grandeur de sortie y et la grandeur d’entrée x s'écrit 


y = f(x). (2.35) 


Si æ est une variable aléatoire, y l’est également. 

Supposons connue la densité de probabilité P (x) d’une variable 
aléatoire x. Cherchons la densité de probabilité P (y) de la variable 
aléatoire y. Nous employons ici le même symbole P pour la densité 
de probabilité de x et de y. Toutefois, la fonction P (y) se distingue 
généralement de la fonction P (x). 
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Proposons-nous tout d’abord de recherher la probabilité de 
l'appartenance de y à un certain domaine Q,,: y € Q,. Ce domaine 
peut être, par exemple, l'intervalle a y < b. Supposons que 
d'après (2.33) aux points y du domaine Q, correspondent les valeurs 
de x appartenant à un certain domaine {.. ‘La probabilité de l’événe- 
ment y € @, est égale alors à celle de l'événement x €Q .. Par con- 
séquent. 


P(yEQ)=p(xE)= | P (a) de, (2.34) 


Qx 
où dQ. est un élément infiniment petit du domaine Q, et l’intégra- 


tion porte sur tout le domaine Q.. Soit, par exemple, P (x) suivant 
une loi normale de moyenne m, nulle 


À 2 
P (a) = Po (e) = 7x ex {5}: (2.35) 


Soit ensuite 


y = À + Bz, (2.36) 


où À et B => 0 sont des constantes. 

Cherchons le domaine Q, correspondant à l'intervalle infiniment 
petit des valeurs de y entre y, et y; + dy. Le domaine Q. est défini 
évidemment par la condition x, < x << x, + dx, où 


= (2.37) 
et 
d 
dx =. (2.38) 


La formule (2.34) entraîne 
Pi < y y + dy) = P (ys) dy = p (x LT << + dx) —- 
-A\ À 
— P,(x) dr =P, fn = + (2.39) 


Si l’on remplace y, par y, il vient 


EVE xp{— er). (240) 


Posons 


(2.41) 
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La formule (2.40) se met “si sous la forme 


_ (y — dl 
P(=— ve exp À — Le (2.42) 

Cette expression correspond exactement a la formule (2.29). 
On en déduit que y possède une loi normale de répartition de moyen- 
ne À et d'écart-type Bo.,. Plus B est petit, 
plus la courbe P (y) est concentrée autour 
de la valeur moyenne de y — À 

La caractéristique d’un circuit non linéaire 
peut être non univoque. Il se peut qu’à une 
même valeur de y correspondent plusieurs: 
“valeurs de x. Soit 


y = Az!, (2.43) 


où À > 0 (fig. 2.1,a). Soit x la variable aléa- 
toire normale amenée à l'entrée du circuit 
dont la Ioi P,(x) est donnée par la formule 
(2.35). Cherchons la probabilité pour y de se 
trouver entre les valeurs w > 0 et w + dw, 
c'est-à-dire la grandeur 


p (w< y < w + dw) = P (w) dw, (2.44) 
Fig. 2.1. où P est la densité de probabilité de y. Les figu- 
res 2.1,a et b montrent que cette probabilité: 


est la somme des probabilités pour x de se trouver dans les inter- 
valles AB et CD : 


P (w) dw = p (w << y << w + dw) — 


— 2p (+p/L<rc+y/ #2), (2.45) 


Cette dernière transformation est légitime du fait que la réparti- 
tion P, (x) est symétrique. Par conséquent les deux surfaces infimi- 
ment petites hachurées de la figure 2.1,a sont égales entre elles. 
Etant donné que 


Ce Ps _ dw 46 
aux infiniment petits d'ordre _——. dr (2. 45) peut s'écrire: 
P(w)de=2P,(z= + +) bee &w=0), (2.47) 
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ce qui entraîne 
{ 1 | 
P(w)=— P, | y + 0 2.48 
( ) V/Aw 0 + À ( >. ) { } 


Remplacçons w. par y et exprimons P,({x) d’après (2.35), il vient 


| os | Dr : 
FU Ve TA exp { ma) 

ER 
“pet jafr (2-49) 
Co = 0x V À. (2.50) 


La formule (2.49) n’est applicable que pour y => 0. Les valeurs 
y << 0 sont impossibles (fig. 2.1,b), alors pour y << 0 P (y) = 0. 
Sur la Ne : 1,c cette courbe est représentée en fonction de la 


grandeur z = +. Il résulte de (2. que quand z > 0 
— CR Ve Ne | 
a _ p (+) =— = exp { ; +. (2.51) 
Cette loi diffère nettement de la loi normale. 
Pour un ensemble de variables aléatoires £,, . .., &, il est. 


possible de donner aussi bien la fonction de répartition que la densité: 
de probabilité. 


L'ensemble des variables aléatoires £,, ..., €, peut être envisagé: 
comme Îles coordonnées cartésiennes d’un point ou comme les compo- 
santes d’un vecteur aléatoire & — (£1, . .., 6.) dans un espace à » 


dimensions. La probabilité p (4) de l'événement À, qui consiste 


à retrouver l'extrémité du vecteur £ dans le domaine Q, de cet espa- 

ce, est évidemment égale à la somme des probabilités pour l’extrémi- 

té considérée de joindre les volumes infiniment petits dQ4 = dx... 
‘’, dx, de ce domaine: 


p (4)= Pr, ee, En) dei den = | P (@)d@a. (252) 
4 gs 
Nous avons’ introduit ici une notation. abrégée P (x pour 
P (z1, te UD) 
La nrobabilité pour l'extrémité du vecteur € de rejoindre un: 


point quelconque e l espace à n dimensions étant égale à l'unité, 
il vient 


a | P (ris 545 Ga) dti + ln = 1. (2.33) 


ss 
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Pour obtenir la densité de probabilité P; (x;) d’une variable Ë; 


il faut intégrer P (x:,..., x,) dans tout le domaine de variation 
des autres variables. Par exemple, 

Pi (x) — | . | P{tis «ee, En) dt ce. dtn. (2.54) 

Si les variables E;, . .., €, sont indépendantes, d’après (2.9), 


la probabilité totale p (A) de l'événement À envisagé ci-dessus est 
égale au produit des probabilités prises isolément pour les variables 
‘aléatoires &; (à — 1, ..., n). Par suite dans le cas considéré 

Ps er SP GP rss. PR (2.59) 
Les densités de probabilité P;, des différentes &; peuvent être diffé- 
rentes. 

Si les variables aléatoires Ë et n sont dépendantes, la fixation 
de l’une d'elles influe sur la répartition des probabilités de l'autre. 
Soit P (y]| zx) dy la probabilité de la variable aléatoire n de tomber 
dans l'intervalle donné y, y + dy à condition que la variable aléatoi- 
re Ë a une certaine valeur fixe x. Appelons densité de probabilité 
conditionnelle la densité de probabilité P (y|x) pour n avec £ — x. 
La probabilité pour n d’avoir une valeur quelconque étant égale 
à 1, on a 

À P(y|x) dy =1. (2.56) 

Connaissant la densité de probabilité conjointe P (x, y) des 
variables Ë et n, il est facile de trouver la densité conditionnelle 
P (y| zx). En effet, le théorème du produit des probabilités permet 
d'écrire 

P (x, y) dx dy = IP (x) dxl'elP (y | x) dyl, (2.57) 
où P (x) est la densité de probabilité inconditionnelle de £. On en 
déduit 


P(#, è 
QUES (2.58) 


Les formules (2.56) et (2.58) se généralisent aisément au cas des 
grandeurs vectorielles & et n, c’est-à-dire des ensembles £;, ... 
‘, En €Ù Mas + + Mme 
Pour l’ensemble des variables aléatoires ËE,, . .., £, on peut 
également introduire la notion de valeur moyenne. Par exemple, 
la valeur moyenne de &4 peut être calculée d’après la formule 


M{j=ma= À. À eP(as an) dm. dm = 


— 00 — 00 


= À mn P (© dQ (x), (2.59) 
Q (x) 


$ 11 ÉLÉMENTS DE CALCUL DES PROBABILITÉS A9 


où Q (x) est tout l’espace de dimension » des points des extrémités 
du vecteur Ë, alors que dQ (x) — dx, ... dx, est un élément infini- 
ment petit de cet espace. | 

Pour l’ensemble des variables E,, ..., £, les moments centrés 
d'ordre deux sont déterminés par la formule 


CÔ 


MaGrd= |. Île 


— 00 


X [tr — M {Ez}] P (x, ..., Tn) di ... dtn. (2.60) 


Pour j — k cette formule donne la variance d'une variable aléatoire 
E; et pour j 4 la covariance des variables aléatoires &, et &;. 
Quand ces variables sont indépendantes, il est facile de montrer que 
la covariance est nulle (en général, l'inverse 

n’est pas vrai: une covariance nulle ne per- y 

met pas d'affirmer que les variables Ë; et &,4 

sont indépendantes). Le rapport sans dimen- 


sion T.s Ly 
M jh 
Rjn — L 2.61 
' VM55Mhh ) 
s’appelle coefficient de corrélation des variables RENE 


aléatoires &;et Ex. 

Les notions de moyennes conditionnelles s’établissent d’une façon 
analogue. Ainsi, la moyenne conditionnelle M {n | £} de la variable 
aléatoire n pour Ë = x, connaissant la densité conditionnelle P (y | x) 
de n pour Ë fixée, s'obtient d'après la formule générale du type (2.58) : 


CO 


M {nI8} = Mois = | yP(y|x) = À yP(x, y) dy. (2.62) 


— 


Considérons un circuit sans inertie d’un système automatique 


(fig. 2.2) dont la grandeur de sortie x, est fonction de deux grandeurs 
d'entrée Ar et Zn_1: 


Zn = Îr (tr hr). (2.65) 


Soit par exemple xz,.1 une grandeur d'entrée du circuit et A} 
une perturbation. 

Admettons que xz-, Soit fixée et »;, soit une variable aléatoire 
de densité de probabilité P (k:). D'après la formule (2.63) on peut 
obtenir alors la densité de probabilité conditionnelle P {x, | x 1) 
pour zx, à condition de donner une certaine valeur fixe à x, -1, CONSI- 
dérée dans le cas concerné comme un paramètre. 


k—0966 
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Maintenant la moyenne conditionnelle de z,, z:_, étant fixe, 
peut s'écrire 
| aP (ar | tes) den. (2.64) 


—œ 


Dans le cas de plusieurs éléments de ce type couplés en série 
(fig. 2.3), la moyenne conditionnelle du dernier élément est donnée 
par la formule 


M {tn | Xn-1} — Ms, + { Tr P (Xn | Tn-1) dTn. (2.65) 


Pourtant, même avec une grandeur d'entrée x, _» fixe, la per- 
turbation aléatoire X,_, rend aléatoire la grandeur zx,_4. Si l’on 
connaît les propriétés de l'avant-dernier élément, on peut calculer 


Fig. 2.3. 


la densité conditionnelle P (x, _1| 7,2). Par économie des notations, 
nous avons employé ici la même lettre P que pour la fonction 
P (x, |ïh_1) bien que généralement toutes ces fonctions puissent 
être différentes. Si x, _, est une variable aléatoire, la moyenne (2.65) 
doit être considérée également comme une variable aléatoire. La 
valeur moyenne de cette dernière s'écrit à son tour 


M {Tn | F2) Met, — Mr x Ms, — 


P (tn-1] En?) | | TnP (tn | Tn-1) da | dtn-1 = 


| 


« 
— 00 


| 


À an (anne) P (an 2-2) din dns = 


= | nP (£n|%n-1) P (tn-1|Tn-2) dQ (tn, Zn1), (2.66) 
Q (&n, Xn-1) 
où Q (x,, æh-1) est la notation de tout le domaine de variation des 


variables x, et x,_1, alors que df (x,, x, _1) — dx, dx, _, désigne 
un de ses éléments infiniment petits. En raisonnant par récurrence, 
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tout en remontant la chaîne des éléments de la figure:2.3.de læsortié 
à l'entrée, nous arrivons finalement à la formule .— 

RE see y 
M {xr | To} = Mantes = |. nP (Zn | £n-1) X 


Q(x1, X2, ..., Xn) 


D. P (Zn | Tn-2) NA (Z: | Lo) dQ (24, ao Th) — 
ñn 


= fe [ IT Pulse), (267) 
Q(x) k=! | 


où 9 (x) est le domaine de variation du vecteur x = (x1, . .., x,) 
et dQ (x) son élément infiniment petit. 

Passons à l'étude des processus aléatoires qui sont les événements 
aléatoires les plus complexes. Un processus aléatoire dit égale- 
ment probabiliste ou stochastique est une fonction aléatoire du temps, 
c’est-à-dire une fonction telle qu’à tout instant elle est une variable 
aléatoire. On peut aussi définir un processus aléatoire comme un 
ensemble de variables aléatoires Ë (1), fonction de l'argument réel £. 

Les observations isolées d’un processus aléatoire Ë (i) se déroulant 
dans des systèmes du même type, c’est-à-dire dans des conditions 
contrôlées invariables de l’épreuve, donnent chaque fois des fonc- 
tions x (t) différentes, des échantillons ou réalisations différents 
du processus aléatoire. La plus simple des caractéristiques probabi- 
listes de ce processus est la loi de répartition unidimensionnelle 
P, (x, t1), c'est-à-dire la densité de probabilité de la valeur Ë (t;) 
du processus à l'instant ? — #,;. L'expression P, (x, t:) dx, traduit 
la probabilité de l'événement x, << E& (£,) << x1 + dx. La fonction 
plus complexe P» (21, ti: Zoe, 2) est la densité de probabilité bidimen- 
sionnelle d'une répartition conjointe de deux variables aléatoires : 
de la valeur £ (4) du processus à l’instant ? — f, et de la valeur 
Ë (&) à l'instant £ — + L'expression P: (x1, li; 2, t2) das dis est 
la probabilité de la réalisation des conditions x << E (t4) <Z x + dx, 
et Lo <T E (fo) <L to + dr. En général, toutes les n valeurs Ë (4), 
E (to), . . ., E (,) d’un processus aléatoire aux instants #, ..., #, 
peuvent être considérées comme n variables aléatoires. L'ensemble 
de ces dernières est caractérisé par la densité de probabilité conjointe 
Ph las, das Ze, tes «5 Æn, tal, et Ph dts . . . dx, est la probabilité 
de la réalisation des conditions 


ti LE (4) x + dx, FN Tn LE (En) En + dun. 


Les caractéristiques probabilistes d’un processus aléatoire sont 
entièrement connues si l’on connaît la fonction P, pour n'importe 
quel 7. 

Le type le plus simple des processus aléatoires est celui où les 
valeurs de & (t) à des instants différents sont indépendantes. Pour un 


4% 
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tel processus on a 
Pl; (ts, lys Lo, do; + + 5 Tr tn] Te 
= P; (x, di) *P3 (ta, te) ... Pi (Ta ln) (2.68) 


P, est ici une loi de distribution unidimensionnelle à partir de 
laquelle on peut construire à l’aide de la formule (2.68) une loi 
à n dimensions. 

Un autre exemple est fourni par le processus aléatoire markovien 
(du nom de À. Markov, mathématicien éminent, qui a été le premivr 
à étudier les processus de ce type).. Pour un processus markovien, 
toute densité de probabilité P, s'obtient à partir de Po (x, ti3 Zo, do). 
Soit P (x,, ta | Zn-1» tn_1) la densité de probabilité conditionnelle 
de £ (£,) à l'instant t — #, sous la condition qu’à l'instant £, _: 
précédant ?, (t,.1 << f,), on eût E (4,1) égale à x,_1. Dans le cas 
d’un processus markovien cette densité de probabilité conditionnelle 
reste inchangée même si l’on connaît de plus Les valeurs x, _», . . ., x 
du processus £& (f) aux instants précédents £,.2, . . ., ty (ln > tn > 
> 12 >... 4). Fixons l'instant f — #,_, et rapportons au 
futur tous les £ >> 4, , et au passé tous les £ << t,_,. On peut alors 
considérer que les caractéristiques probabilistes d’un processus 
markovien évaluées pour les instants futurs sont définies par la 
valeur x, _. du processus à l'instant donné f, _, et ne dépendent pas 
de la « préhistoire » de ce processus, c'est-à-dire de ses valeurs anté- 
ricures lorsque { était inférieur à #,.4. 

Montrons que dans ce cas tout P, peut être exprimé par P2. 
En premier lieu la densité de probabilité unidimensionnelle P, 
s'obtient à partir de P: à l'aide de la formule (2.54) : 

X2—00 


P; (x4, L;) —= | Ps (x, Li Lo, Lo) dto. (2.09) 


X2—= — 00 


Généralement, toute densité P; peut être obtenue à partir d’une 
densité P, (k=>i) par intégration par rapport aux variables qui 
ne figurent pas dans P;. 

Vu l'indépendance de la densité de probabilité conditionnelle 
de la « préhistoire » du processus, on peut écrire en posant n >> 2: 


P (rs, tn) | Ln -1) ln 1; +... Vi ti) — P (Lns ên | Ln —1r et (2.70) 


Nous avons employé ici la même lettre P pour désigner deux 
densités de probabilité différentes des premier et second membres 
de l'expression (2.70) qui, pour un processus markovien, sont pour- 
tant égales. | 

En vertu du théorème de la probabilité d'un événement compo- 
sé (2.6) on a l'égalité 


P; (Zn ln; Th 4) ln _1) = P (Th: ln | Ln 1 En _1) P, re tn 1)- (2.71) 
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La formule (2.70) peut donc S'écrire 


P (x st * En-1s Én- = 
P (tn, În | Æn-1s Én-13 + 5 dus b)= uen Ent (2.72) 


Mais le théorème de la probabilité d’un événement composé entraîne 
Pa (ti, d15 Do, la ee 3 Æns fn) = 
= Pres (dis da 45 Ln-4, én-4) P (&n, fn | Æn-4s Én-45 +. 3 sh) = 


— Pr (ti Li, ...; Xn-1s bn -s)» Pa Ep Entre) : (2.73) 

On voit que dans le cas concerné, P, et P: étant connues, une 
fonction P, quelconque se ramène à P,_, qui à son tour s'exprime 
à l’aide de P,, >, etc., en aboutissant finalement à la fonction P2. 
Dans le cas d’un processus markovien, une fonction quelconque P, 
s'exprime donc par l'intermédiaire de P2. 

On distingue des processus aléatoires stationnaires et non sta- 
tionnaires. Un processus aléatoire est dit stationnaire si un décalage 
de tous les points #,, 2, ..., &, le long de l'axe du temps d'une 
même grandeur {, ne change pas les densités de probabilité respecti- 
ves P,. Un processus stationnaire vérifie l'égalité 


Ph (tt, 15 Los lo; . 3 Zn ln) — 
= Pr (as, da + dos Les do + Éo5 + + «3 ns ln + fo). (2.74) 
Donc le caractère statistique d’un processus aléatoire stationnaire 
reste inchangé dans le temps. Un processus aléatoire stable est 


analogue au processus stable. Pour la densité de probabilité unidi- 
mensionnelle P; la formule (2.74) donne 


Pi us 4) = Pa (au 4 + fo). (2.75) 
On voit que P, ne dépend nullement de #, c'est-à-dire que 
Pa (ass 4) = Pa (a). (2.76) 


Pour une densité de probabilité bidimensionnelle l'égalité (2.74) 


s'écrit 
Po (tr, ta3 Los de) = Pa (ts, à + doi Les te + to). (2.77) 


Cette relation montre que P: dépend non pas des instants #, et ds, 
mais de leur différence {eo — à = 7: 


Pa (ti, d5 Ta to) = Po (ru, Za, T). (2.78) 


Deux processus aléatoires E (4) et n (?) liés sont caractérisés par 
des densités de probabilité conjointes des variables Ë (£;) et n (f;). 
Par exemple, Po (xs, tas Yo, te) das dy2 est la probabilité du fait 
que ti << Ë (4) <a + das et yes CN (f2) << Ya + ds. 

Si toutes les fonctions P, ne dépendent pas du décalage des 
instants £,, &, . .. d’une même valeur #,, les processus E (?) et n (t) 
sont dits processus stationnairement liés. 


54 MÉTHODES MATHÉMATIQUES [CH. H 


La valeur moyenne ou l'espérance mathématique d’un processus 
aléatoire & (t) à l'instant # — #, est définie comme l'espérance mathé- 
matique de la variable aléatoire Ë (4). Pour simplifier l'écriture on 
peut remplacer Ë (4) par x(#). Il vient alors 


M{()}= À a1Pi (es #1) des. (2.74) 
D'une façon analogue on définit le carré moyen 
MK2° (4)} = À TiP3 (m1, hi) dus. (2.80) 


Pour un processus aléatoire stationnaire la condition de 16) 
entraîne 


M {x (t)} = | a Pi (xs) dr, (2.81) 
et l 
M {en} | aPi (29) de. (2.82) 


La moyenne du produit des variables x (4) — a et x (t2). = 22, 
désignée par Æ+ (#1, t2), s'appelle fonction de corrélation ou d'auto- 
corrélation. Par définition de la moyenne 


K > (£1, Lo) = M {x (41) x (2)}} == 


= | \ TiTaPo (3, La3 Lo, te) das dre. (2.83) 


Pour un. processus. aléatoire stationnaire la condition (2.78) per- 
met de simplifier la formule (2.83) car X, ne dépend que de T — 


00 co 


KT) =M{r()e(+)}= | is rite Pa (ts or 7) des dun (2.84) 


— 00 — 00 


= Dans le cas particulier pour t =.0 la formule. (2. 84) donne, 
compte tenu de (2.82), 


Ka (0)=1Kx (Dee = Mt (t)}. (2.85) 
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D'une mani:re analogue à (2.83) on trouve la fonction de corré- 
lation mutuelle des processus zx (#) et y (ë): 


Key (ta, to) = M {x (ti) y (t2)} — 


CO O0 


. À À Tiÿ2Pa (x, ln; Yo, de) dx, dy. (2.86) 


© — co 


Si les processus x (i) et y (t) sont stationnaires et stationnairement 


liés, on a 
Pa (tu, di Vas te) — Pa (œu, Ya, T), (2.87) 
où T — 2 — t. Alors K,, ne dépend que de +: 


00 oo 


Key (tr) = M {x (ts) 2 (ti +T)} = Î Î TY2P: (t1, Ya, T) ds dy. (2.88) 


00 = 00 


La fonction de corrélation, de même que le coefficient de corréla- 
tion (2.61) ou le moment (2.60), évalue le degré de liaison entre les 
valeurs d’un processus aléatoire aux instants différents. 

Par définition, Ky (5 t2) = Kz (ts, 4) et pour un processus 
aléatoire stationnaire K,(ù = K,(—7. 

Il existe une sous- classe des processus aléatoires stationnaires 
appelés ergodiques, pour laquelle la moyenne d'ensemble (c'est-à-dire 
l'espérance mathématique) ‘est égale, avec une probabilité unité, 
à la moyenne temporelle. 

Par exemple, la moyenne temporelle de la variable x (t), Re 
par l'expression 


T 
1 
—+ 00 CT 


est égale à la moyenne d’ensemble (2.81). Encore, la moyenne tem- 
porelle du carré de la fonction x.(+?) 


T 

1 

= lim É a? (+) dt 
: Es 


est égale à la moyenne d nsenble 2. 82). de + analogue a lieu 
également pour les moyennes. du produit . 


Ka (x) = | 4 Æit2Po (ru, F2 T) dx, ÊXo = 
MECS he ST 
. = nr Hi æ(t)æ(t+T)dt. (2.89) 


-T 
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En posant t — 0 on obtient 


K;(0)= lim 2 


Too 27 


a? (t) dt = x? (t). (2.90) 


Rosie 


Cette expression s'appelle parfois puissance du signal x (#). Si x (t) 


est une tension appliquée à la résistance d’un ohm, x° () est alors 
la moyenne de Ia puissance dégagée sur cette résistance. 

La transformée de Fourier de Ia fonction d'’autocorrélation 
K,(t) d’un processus aléatoire stationnaire 


Sx (©) = | K, (x) e-iot dr (2.91) 


s'appelle densité spectrale du processus aléatoire x (). La transformée 
de Fourier de la fonction K,, (rt) (2.86), c'est-à-dire 


Say (o)= À Kxy(r) ei dr, (2.92) 


est dite densité spectrale mutuelle des processus zx (t) et y (t). 
Voici l'interprétation physique de Ia fonction S, (@). Prenons 
sa transformée de Fourier inverse 


Ka (r) = À S 4 (©) #97 do. (2.93) 


Posons t=0. Îl vient 


Kx:(0)=— | S: (6) do. (2.94) 


Le premier membre de cette expression est la puissance du signal 
x (t) (cf. (2.90)1. Par conséquent le second membre de ‘(2.94) est 
également une puissance mais mise sous la forme d’une intégrale 


par rapport aux pulsations ©. La différentielle 0e a le sens 


de la fraction de la puissance du signal correspondant à un intervalle 
infiniment étroit du spectre de fréquences entre & et « + do. 

Le signal aléatoire dont S (w®) — S, — const s'appelle bruit 
blanc. L'original qui correspond à cette transformée de Fourier s'écrit 


K, (D = So (n), (2.95) 
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où Ô (t) est ce qu’on appelle impulsion unité ou fonction de Dirac 
définie comme suit : 


O(T}=0: T0: 


| Ô(T).dr — 1. (2120) 


— 94 


La fonction 6 (tr) est une impulsion «infiniment élevée » et 
«infiniment étroite » apparaissant à l'instant t — (. 

Les formules (2.95) et (2.96) montrent que pour t 0 la fonction 
d’autocorrélation du bruit blanc est égale à zéro. On en tire qu'à 
des instants différents La corrélation entre les valeurs du bruit blanc 
n'existe pas. 

Dans ce qui suit nous allons souvent remplacer un processus 
aléatoire continu x (f) par une suite de variables aléatoires liées 
x (t), ..., x (t,), valeurs du processus à des instants discrets 
th, . . ., t,. Ceci est possible si le spectre de fréquences de toutes 
les réalisations du processus aléatoire est borné par la limite supé- 
rieure @, alors que la durée l’est par le temps 7. En toute rigueur, 
le spectre de fréquences d’un processus de durée finie est infini; 
on peut trouver pourtant une pulsation ©, telle que pour © => ©: 
l'intensité de La « queue » du spectre soit suffisamment petite et son 
influence soit négligeable. D’après le théorème de V. Kotelnikov 
[5.16] la fonction x (f) peut être remplacée, sans perdre aucune infor- 
mation sur cette fonction, par une suite de ses valeurs discrètes 
x (Hi), x (t»), . . ., dites également échantillons, et distantes dans le 


temps pas plus de Af — _ . Le nombre total d'échantillons obtenu 


z a ; À à er 
est égal à A Os 2Tfs, OÙ fs — nn 
Introduisons la notation x (f;) = x; (i — 1, . .., k) et considé- 
rons le vecteur 


= (Li) Lis D: (2.97) 


Les coordonnées du vecteur À sont des valeurs successives du 
processus zx ({) aux instants #4, £, . . ., 4. On peut considérer le 
vecteur À dans un espace de dimension 4 aux coordonnées cartésien- 


nes 21, Lo, . . ., æn. Le vecteur X est aléatoire du fait que ses coeffi- 
cients sont des variables aléatoires. Désignons par 
P (X) — P (x1, Lo»... Th) (2.98) 
la densité de probabilité de ce vecteur ; ce n’est rien d'autre que la 
densité de probabilité conjointe des coordonnées x1, . .., æy. 
L'expression P (X) dQ (X}, où d&à (X) — dx, . .., dx;,, donne 


la probabilité pour l'extrémité du vecteur À de tomber dans le 
volume infiniment petit dQ (X). Comme l'extrémité du vecteur À 
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se trouve toujours en un point quelconque, on obtient : 


P{X) dQ (X)=1: (2.99) 


SX) 


Q (X) est ici l’espace de dimension k tout entier du vecteur X. C’est 
le cas où Le processus aléatoire est remplacé par le vecteur aléatoire X. 


$ 2. Méthodes variationnelles 


La recherche de l’extremum d'une fonctionnelle se rapporte au 
domaine des problèmes dits variationnels dont le rôle dans la théorie 
des systèmes optimaux est évident. 

Il existe diverses méthodes de résolution des problèmes de ce type. 
Le calcul variationnel classique a pris son essor dès 1696 lorsque 
Jean Bernoulli a énoncé son problème sur la ligne de plus grande 
pente (brachistochrone). Au XVIIIe siècle Euler et Lagrange .ont 
établi les méthodes générales de résolution des problèmes variation- 
nels. Plusieurs ouvrages brillants du XIX® siècle ont achevé de 
mettre au point le calcul variationnel classique. Le présent paragra- 
phe passe en revue ses principes fondamentaux. Le lecteur désireux 
d'approfondir ses connaissances dans ce domaine peut s'adresser 
aux références [2.4 à 2.8]. 

Le XXe siècle a été marqué par l'application des méthodes dites 
directes. de résolution des problèmes qui sont dues également 
à Euler. Ces derniers temps ces méthodes interviennent de plus en 
plus en physique et en technique. Dans ce qui suit nous en donnons 
un exposé sommaire (cf. également [2.7 et 2.8). 

De nouveaux problèmes, formulés vers 1950, parmi lesquels ceux 
de la théorie des systèmes optimaux dé la commande automatique, 
ont nécessité l'apparition de nouvelles méthodes de résolution des 
problèmes variationnels; ce sont la programmation dynamique 
établie par le mathématicien américain R. Bellman et ses collabora- 
teurs et le principe du maximum énoncé et développé par l’ acadé- 
micien soviétique DL. -Pontriaguine et ses élèves. 

Pour formuler le problème le plus siüple du calcul rationnel 
considérons la foncrionnelle: 1 associée à la un y (t): 


Fe : 
1= | sis y, y')de, (2.100) 
X0 di 
a | à / en r dy | 
où Fest une fonction donnée des arguments x, yety —+.Admet- 
tons d'abord que les limites d’ intégration ïo et x; soient. dé constan- 
tés données. Soit la fonction F univoque et continue âvec ses dérivées 


partiëiles jusqu’au troisième ordre inclus pour tous x et y apparte- 
“ant à un certain domaine À du plan (x, y). Convenons que la fonc- 
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tion y — f(x) soit univoque et continue dans l'intervalle (to,t:) 
et que dans cet intervalle sa dérivée première soit continue, ou, 
d’une façon concise, appartienne à la classe CD, Appelons les cour- 
bes f (x) admissibles si elles appartiennent à la classe CŸ, reposent 
entièrement dans le domaine À et passent par les points donnés 
(tosYo), (Æirÿ1), OÙ Yo = (to) et Ya — f(x). 
Le problème se formule comme suit: rechercher celle des courbes 
admissibles f (x) dont l'intégrale (2. 100) a une valeur minimale. 
La condition nécessaire que doit justifier une courbe présentant 
la solution du problème énoncé s'obtient facilement. Soit f (x) cette 
courbe. Remplaçons cette fonction dans l'intégrale (2.100) par une 
fonction « voisine » 


= j (x) + an (x), (2.101) 


où n (x) est une fonction arbitraire de la classe C® qui É 'annule 
aux extrémités de l'intervalle considéré 


n (o) = n (1) = 0, (2.102) 
et « un petit nombre quelconque. L’ intégrale I devient alors fonc- 
tion / (x) de ce nombre: 

x4 
L(a)= | Fte, f(æ)+on(e), f'(r)-+an'(ældr. (2.103 
x0 


Si & est suffisamment no T(x) peut être développée en série 
de puissances de a: 


Oo OR ES TT rat PRE ant (2.404) 
Les expressions. & es ar a L LEE 


da le Las) x=0 S ‘appellent varia- 


tions première et seconde de l'intégrale Z et sont notées 87 et 627 
respectivement. 
Si la fonction f(x) minimise l'intégrale Ée on a 


T) =0,. (2.105) 


de plus, cette condition se vérifie pour une fonction n (x) quelconque 
de la classe C‘® justifiant les conditions aux limites (2.102). 

Développons l'expression de 67. La dérivation de (2.103) sous 
le signe somme par rapport à & en posant &« — 0 donne 


EL. (ner re] 2409 


X0 


Supposant que la dérivée seconde f” (x) de la fonction f (x) soit 
continue (des raisonnements plus poussés montrent que cette hypo- 
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thèse n'est pas impérative\, le deuxième terme de (2.106) peut être 
intégré par parties: 


Î Ar dr [nt | { n(e) + (5) dx. (2107) 
xX0 FA 


En vertu de (2.102), le premier terme de cette expression s’annule. 
Par conséquent la combinaison de (2.106) et de (2.107) conduit à la 
formule 


Es lo jne ne Sr % | dz (Sr 3). Pe (2108) 


Si d'après (2.105) le premier membre de (2.108) est nul, l'intégrale 
du deuxième membre de (2.108) est nulle également et, de plus, 
elle l’est pour toute fonction n (x) de la 

14 classe CD. On montre aisément (cf. [2.5 à 
2.8) qu'il n’en est ainsi que si l’expres- 


sion entre crochets sous le signe somme 
ÿ est égale à zéro: 
(4 
CE He (5r)=0. (2109) 
7 D € dy x \ y 


C'est Ià précisément la condition néces- 
saire qui a la forme d’une équation difié- 
rentielle. En recherchant ses solutions 
nommées érajectoires optimales, on obtient les courbes qui peuvent 
fournir la solution du problème. L’équation (2.109) porte le nom 
d'Euler. 

Supposons, par exemple, qu'il faut trouver la courbe y — Î (x) 
de la classe CD qui passe par les points M, et M, du plan (x, y) 
(fig. 2.4) de coordonnées 


To = 0, Yo >> 0, 


Fig. 2.4. 


2.110 
NZ > 0, yi=0, J À ) 
ce qui minimise l'intégrale 
_ frpeprm(#)"a 2.111 
. | # ES dx , ( : ) 
0 


où 7?— const. ee 
Dans le cas considéré 


P=p+r (ii) =p+ Tr (y. (2.112) 
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Par conséquent 
8 OF _ om. 


L'équation d’Euler (2.109) prend donc la forme 


2y— 272 À (y'}=0, (2.114) 
ou : 
y— Ts LE 0. (2.415) 


La solution de cette équation s'écrit 


y=CieT + Ce T, (2.116) 


où C,et C: sont des constantes. En portant dans l'expression (2.116) 
les conditions aux limites (2.110) on obtient la valeur des constantes 


Cam", C——1—, (2.117) 


2xQ 
1+e ? {+e T 


Par conséquent la solution de l'équation d'Euler est donnée 
par la fonction 


2x0 


The. 14e T 

C'est la solution unique de l'équation (2.115) qui vérifie les 
conditions aux limites (2.110). Mais nous avons montré ci-dessus 
que s’il existe dans la classe des courbes C'® une solution du pro- 
blème variationnel, cette solution doit être recherchée parmi celles 
de l'équation d'’Euler. C’est pourquoi (sous l'hypothèse qu’une 
solution existe dans la classe des courbes CD), Ia courbe (2.118) 
intervient en donnant à l'intégrale (2.111) une valeur stationnaire. 
Autrement dit, l'intégrale Z («) peut avoir soit une valeur maximale, 
soit une valeur minimale, soit encore un point d’inflexion en &« = (. 
Ce n’est que par raisonnements complémentaires qu’on établit réelle- 
ment si (2.118) minimise l'intégrale (2.111) et donc constitue la 
solution du problème. Mais il ne faut pas en tirer que l'équation 
d'Euler, même lorsqu'elle a une solution, résout toujours le pro- 
blème variationnel respectif. Il arrive que l'équation d'Euler n’a 
pas de solutions. Il en est ainsi, notamment, lorsque la fonction 


F de (2.100) ne dépend que de x et de y. L’équation d’Euler se met 
alors sous la forme 


ST SE 
PU nn de 2. |: (2.118) 


: OF ( L 
nn Ù (2.119) 
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Ce n’est déjà plus une équation différentielle. Par exemple, 
si F(x,y) = xy, l'équation (2.119) s'écrit x — 0. Recherchant 
la solution de l'équation (2.119) pour le cas général on peut trouver 
une ou plusieurs courbes y = f (x). Pourtant, elles ne passent pas 
obligatoirement par les points imposés (xo, ÿo) et (x, y): C'est 
pourquoi dans le cas considéré la trajectoire optimale de la classe Ca 
Vérifiant les conditions du problème ne peut s’obtenir qu'avec des 
valeurs exceptionnelles des coordonnées des points frontière. 

Dans d’autres cas il se peut qu’un problème variationnel de la 
classe C® n'ait pas de solution. Minimisons, par exemple, l'intégrale 


I Î y? [i-(#)] dx (2.120) 


pour des conditions aux limites y (—1) = 0, y (1) = 1. On voit 
aisément que sous le signe somme la fonction F > 0 et, de plus, le 
minimum absolu de cette fonction F = 0 et, par conséquent, le 
minimum de l'intégrale 7 s’obtiennent sur la ligne brisée y = 0 
avec x < 0, y = x avec x >> 0. Toutefois, cette ligne brisée n’appar- 
tient pas à la classe CD, En l'arrondissant près d’un sommet on 
voit que, quelles que soient les courbes de la classe C‘®, l'intégrale 
(2.120) est positive, bien que sa valeur puisse devenir aussi petite 
que l’on veut. 

Ce qui vient d'être dit montre que la proposition: « la solution 
d’un problème variationnel se ramène à la résolution d’une équation 
d’Euler » n’est vraie que sous certaines réserves, même pour la 
classe restreinte des problèmes considérés. 

Si l'intégrale 7 dépend de plusieurs fonctions d’une même 
variable x, il est possible par un procédé analogue à celui exposé 
ci-dessus de trouver la condition nécessaire pour obtenir les courbes 
présentant a solution du problème variationnel sous la forme d’une 
équation d’Euler. Soit, par exemple, 


X1 
I= À F(x,y,2,y',z)da, (2.121) 
: 


où y — _ , Z = de, Les valeurs frontière y (xo), y (x), 3 (to), 
z (xs) sont données. Considérant provisoirement que z est une fonc- 
tion fixée, on obtient au lieu de (2.121) une intégrale du type (2.100) 
qui ne dépend que de la fonction y (x). Dans ce cas la fonction réali- 


sant l’extremum doit vérifier l'équation de la forme (2.109): 


0F d 0F 
ee (= Sr Fr) = =; (2.122) 
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En rendant y (x) fixe et en raisonnant d’une manière analogue par 
rapport à. z, on peut aboutir à une autre équation 
6F 6 [6F sn 
A (Fr) — 0. (2.123) 

Il se trouve finalement que les fonctions y et z doivent justifier 

l’ensemble des équations (2.122) et (2.123). Les fonctions cherchées 
y (x) et z (x) se trouvent parmi les solutions communes de ces équa- 
ions. 

Le problème variationnel peut être généralisé au cas d’une fonc- 
tion comportant des dérivées d'ordres supérieurs. Convenons que 
la fonction y = f (x) appartient à la classe C(® si, avec ses dérivées 
jusqu'à l’ordre nr inclus, elle est univoque et continue. supposons 
que la fonction y = f (x) de la classe €" et ses dérivées jusqu’à 
l'ordre (n — 1) aient les valeurs données lorsque T = Ty et = 2, 
cest-à-dire | 

y = , ÿ —y;: 7 Le avec DL À 
+ (2.124) 


Y= Yi, Y=Ya ce, YÉP =Y avec zx. ) 
Cherchons une fonction y = f (x) de ce type telle qu'elle minimise 
l'intégrale 

æ4 
1 = À F(æ y... y) dx. (2.125) 
xQ 

Soit la fonction F possédant les dérivées partielles jusqu’à l’ordre 
+ 2). 

Remplaçons y par une fonction y — an (x) voisine de la fonction 
cherchée, où n (x) est une fonction de la classe €”, qui devient 
nulle avec ses (n — 1) dérivées aux points frontière. Après substitu- 
tion dans l'intégrale (2.125), il vient 


COTES Te IE 
XQ 


(2.126) 


Intégrons k fois par parties les termes du second membre 
de (2.126), il vient 


&1 


| FD né (x) dr = 


0 


nn (7) — À A ee ] n%-2 (x) + 


Oy Ouh 


dxtk-1) 


He (EE) 1 04 


X1 

dh 0F 

+ TE En )n) dx. (2.127) 
X0 
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Le premier terme du second membre est nul en vertu des condi- 
tions imposées à n (x) aux points frontière. En introduisant l’expres- 
sion obtenue dans (2.126), il vient 


re. | jee (ari+e+ 


dan 


+0 () Jér. (2.128) 


Etant donné que (5) eu O0 pour une fonction n (x) quelconque 


du type indiqué ci-dessus, on peut montrer (cf. [2.81 que l'expression 
entre crochets sous le signe somme doit être nuile: 


D (++ () = 0. (2129) 


L'équation (2.129) s'appelle équation d'Euler-Poisson. Si la 
fonction de la classe C” minimise l'intégrale (2.125), elle vérifie 
l'équation (2.129). 

Cherchons (cf. [1.9]) une fonction minimisant l'intégrale 


C0 


Ty = (ra À a+ (5) + a Se) ]ée, (2.130) 
0 Û 


din 


x étant ici un processus transitoire d’un système linéaire stable aux 
conditions initiales 


0) ee dx H). = xD (0), ..…, ) = gta D ((). 


(2.131) 
Le système étant stable, 
x—+0 et go = LE 0 avec £—+ oo (i 1,...,n—1) (2.132) 
et 
Zoo) = 2% (0)—=,.;,.,=1D (660) 0. (2.133) 


Les conditions (2.131) et (2.133) peuvent être considérées comme 
limites pour & — 0 et £ — oo, | 
En remplaçant dans l’équation d’Euler-Poisson y par x et x part, 
on a 
0F d dn OF 
ôx dt FE nt. D oi ou dim | TM) 
Dans l'exemple considéré 


Fr ty fr... y [amp (2.135) 


| —0. (2.134 
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En portant (2. Fi dans (2.134) on aboutit à l'équation différen- 
tielle . 


_— Z— a ® yet E.. +(— sy" ee RECRUE (2.136) 


C’est une équation Re d'ordre 2(n —1) à coefficients 
constants. Composons pour elle l'équation caractéristique LL 


CAP} PP bE + (y np be 0, (2. 137) 


ue Supposons qué cette équation ait une racine Pi — + JB: 
Les puissances de p figurant dans l'équation (2.137) n'étant que 
paires, il y a également parmi ses racines —p; — —@; — jf. On en 
déduit .que toutes les racines de (2.137) forment des couples symé- 
triques par rapport à l'origine des 

coordonnées (fig. 2.5). Done, si parmi 

les racines de l'équation il n° yen a J HTTP 
pas de purement imaginaires, la moi- 27 
{ié, c'est-à-dire ‘ les 7 — 1 racines, 27 
tombent dans le ‘demi- plan gauche N 
tandis que l'autre moitié, dans le demi-  - 
plan droit. Par. conséquent le. poly-. PURE 
nôme caractéristique peut être mis sous 7 P2=-P, 
la forme d'un produit h, 


I) = MGE)N (p). LOI 158) 


Notons que les racines du polynô- 
me M (p) de puissance (n — 1) se 
situent dans le demi-plan o LL. que celles du polynôme 
N (p), également de puissance (r — 1), dans le demi-plan droit. 
Il est clair que seules les racines du polynôme 4 (p) doivent être 
utilisées dans l'expression de la trajectoire optimale x* (1), celles 
du polynôme AN (p) se situant dans le deïmi-plan droit doivent être 
rejetées eu égard aux conditions aux limites (2.133). Autrement dit, 


les termes du type C;e”i* avec des p; appartenañt au demi-plan droit 
ne doivent pas figurer dans. la solution (c'est-à-dire que les C; 
respectifs doivent être nuls), sinon.les conditions aux limites (2. 133) 
seront compromises. 

On peut, sur la base de certaines considérations, se donner le 
type de la forme quadratique V de.(2.130) et chercher la trajectoire 
optimale correspondante. Mais on peut également s'imposer, comme 
c'est le cas de [1.91], l'équation de la trajectoire optimale x* (à) 
et rechercher l'intégrale (2.130) qui lui correspond. Soit x*  @ la 
solution de l'équation différentielle 


Fig. 2.5. 


M-(D) 2* {D = 0, (2139 
où. —— 
;. à 
D=—- (2.140) 


5—0966 
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est une notation symbolique de l'opération de dérivation. Donner 
l'équation (2.139) équivaut à donner les racines ou les coefficients 
de l'équation caractéristique 
M (p) = 0. (2.141) 
Supposons ainsi que 


M (p) = 1+ Bip + ep? +...+ 0, sp", (2.142) 


où Ÿ; >> 0. Les racines de N (p) étant opposées à cel es de M (p), 
en connaissant M (p) on peut écrire le polynôme W (p) (l'expression 
pour À (p) se déduit aisément des formules de Viète): 


N (p) = 1 — ip + Gop +... + (1) np, (2.143) 


Maintenant Æ{(p) peut être donné par l'égalité (2.139). En y portant 
les expressions (2.142) et (2.143), on obtient les coefficients y; dans 
la formule (2.137). Par conséquent on peut trouver la forme de 
l'intégrale 74, (2.130) pour laquelle la trajectoire optimale (ou Ia 
famille des trajectoires optimales dans le cas des paramètres non 
fixés de la courbe) est la courbe donnée x (à. 

Considérons, par exemple, l'intégrale dont la trajectoire optimale 
est la solution d'une équation de deuxième ordre 

27% Ed 

PE + 2000 -2 + wix* — 0, (2.144) 
où do >> 0, wp >> 0. On sait qu'avec do << 1 la solution xr* (t) de 
cette équation prend la forme des oscillations amorties et avec 
do > 1 le processus est apériodique. La quantité «©, s'appelle pulsa- 
tion propre des oscillations et, lorsque les valeurs de d, sont petites, 
elle est voisine de Ia pulsation réelle des oscillations amorties. 


Posons 
{ 1 

= dy +. (2.145) 
L'équation (2.144) s'écrit alors 

dèxz* # O1 dr* 

TA To VA + at = 0. (2.146) 
Par conséquent les coefficients du polynôme M (p) sont 
o-+1 
B=270)/ LEE, Ts. (2.147) 


Dans Je cas présent l'identité (2.138) entraîne 
(4 + ip + Dop*) (1 — 81p + ap) = 1 — yip* + vop*. 


En ouvrant les parenthèses dans le premier membre et en égalant 
les coefficients de. p° et de p‘ des premier et second membres, on tire 
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On en déduit 


AT 97 2078, .. 
Dr : . | (2.149) 
Ve = TS. 

Par conséquent l'intégrale 1, pour laquelle la solution de l'équa: 
tion (2.144) ou (2.146) est une trajectoire optimale, prend la forme 
[y = À {e? + pi PT + ya LT} dt = 

0 


= | {+ 2072 [x] + Téfat}®) dé. (2.150) 
0 


Dans un grand groupe de problèmes du calcul des variations des 
conditions supplémentaires sont imposées à la solution. L’extremum 
d’une fonctionnelle, défini sous ces conditions, est dit extremum lié. 
Les conditions supplémentaires interviennent en général sous la 
forme d'égalités. Supposons, par exemple, qu'il faut chercher les 
courbes y (x), . . ., y, (x) minimisant l'intégrale 


X1 


D À Fe; qu ÿn mi vs vs... vi)de (2451) 


X0 
en présence des conditions supplémentaires 
OP: (x ; Us Y2» Yn) = ( (i Fe {, ss I; m << n). (2.152) 


Les équations (2.152} sont supposées indépendantes. 
Pour trouver la solution on fait appel aux multiplicateurs de 
Lagrange. Composons l'intégrale 


x1 mn x1 
I = | [F+3 A (a) qi | dx — | F* da, (2.153) 
Xo 4—= X0Q 


GÙ 
FS=F+ 2, (x) Pa (2.154) 
i=1 


alors que À; (x) sont pour le moment des fonctions inconnues (multi- 
plicateurs de Lagrange). On recherche l'extremum absolu pour 
l'intégrale Z*, c'est-à-dire on résout le système d'équations d'Euler, 
analogue au système d'équations (2.122) et (2.123) : 

d 
dx 


Fi F0 G=t,...n). (2.155) 


5% 
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Si ce système de x équations est complété par un système de 
m équations (2.192), les m + n équations suffisent généralement 


pour définir les m + n fonctions inconnues y, . .., Yn, A1, . . ., Àms 
alors que les conditions aux limites y; (x5) — yjo et y; (4) = = ÿj: 
GO = 1 ., n) qui doivent être compatibles’ avec les équations 


de liaisons (2.452) permettent de définir 2r-constantes arbitraires. 
: Les. conditions supplémentaires peuvent avoir la forme des 
équations différentielles (problème général de Lagrange) : 


Da (Ts Vas se es Une Ur YU). = 0 (= 1, es M}. (2.156) 


Dans ce cas la procédure de résolution reste la même. Les conditions 
supplémentaires peuvent avoir la forme des égalités intégrales 
(problème isopérimétrique) : 


X1 
| \ F; (x, Yis- ss Uno Yi "ae Yn) dx = li (ë 2e 1, su. m), (2.157) 
ne 


où l, sont des constantes et m peut être inférieur, égal ou supérieur 
à n. Ce problème se ramène au précédent en introduisant de nouvelles 


Fig. 2.6. 


coordonnées. La procédure d'introduction des multiplicateurs. de 
Lagrange est ici simplifiée, car À; se trouvent être des constantes 
et il faut donc”rechercher l'extremum absolu de l'intégrale 


4 _ ï (F+ S MF) dx. (2.158) 


X0 | i=1 


Dans des problèmes que nous avons examinés précédemment 
les courbes. admissibles y (x) étaient celles dont les extrémités se 
trouvaient en deux points fixés. Dans une classe plus large de. pro- 
blèmes les points frontière ne. sont pas fixés mais doivent reposer 
sur des lignes où.des surfaces Go.et- Ga. données (fig. 2.6). Soit ACB 
la courbe récherchée. Imaginons que ses deux points frontière À 
et B. sont fixés. Nous pouvons. la comparer. à d’autres courbes quel- 
tonqués AC'B passant’ par les mêmes points. Nous voyons que la 


# + 
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courbé ACB donne à l'intégrale 7 une valeur moindre-que celles 
données par n ‘importe quelle courbe AC'B voisine, donc, elle doit 
satisfaire à l'équation d'Euler. Pourtant dans la solution de l’équa- 
tion d'Euler figurent des constantes arbitraires. Par exemple, les 
points À et B de la figure 2.6 sont définis par quatre coordonnées, 
tandis que les conditions d'appartenance des points À et B aux courbes 
frontière G&, et G, ne donnent que deux égalités pour la détermination 
des coordonnées de ces points. L'examen détaillé des variations des 
points frontière que nous omettons conduit à conclure que ces points 
doivent satisfaire encore aux conditions de transversalité. Ecrivant 
ces conditions on peut trouver les relations qui manquent et définir 
les constantes des solutions des équations d’Euler. 

Le XXE siècle a été marqué par une extension importante des 
méthodes directes du calcul des variations (cf. [2.7, 2.8]). Nous 
allons examiner à titre illustratif le principe de la méthode de Riesz, 
l'une des plus simples variantes de ces méthodes. Les fonctions 
considérées comme admissibles sont dans ces conditions du type 
suivant ; 

Ti 


Ya = 21 œP: (x), (2.159) 


où a; sont des coefficients constants et P, certaines fonctions données. 
Portons l'expression (2.159) dans la formule de l'intégrale 7, cette 
dernière se transforme alors en fonction des coefficients «; 


l'=T{(@, ::23 0. (2.160) 


Maintenant on peut choisir les coefficients &; de façon à minimiser }, 
en résolvant par exemple le système d’ équations (non différen- 
tielles) 
_ 2.161 
du — (i=1, s..,7t} ( : } 

Lorsque cette procédure peut être réalisée pour un »# quelconque, 
alors pour # — co, si la limite existe, on tombe sur la fonction 
y = lim y,, qui avec certaines restrictions supplémentaires est la 
solution exacte du problème variationnel. La fonction y, avec 
n suffisamment grand est une solution approchée du problème. 

Considérons maintenant les possibilités que présentent les métho- 
des décrites ci-dessus pour la résolution des problèmes variationnels 
de la théorie des systèmes optimaux. Ces problèmes comparés à ceux 
examinés par le calcul des variations classique permettent de relever 
les particularités suivantes : : 

4) Dans l'intégrale à minimiser, ou la fonctionnelle @, ainsi 
que. dans les équations de l’objet commandé et Les conditions de 
restriction figurent, outre les coordonnées x; de l’objet, les comman- 
des u;j QG —=1,...,r). 
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2) Les restrictions ont généralement la forme des inégalités, par 
exemple [u;| & U;, et de plus le vecteur w peut se trouver non 
seulement à l’intérieur mais aussi à la frontière de son domaine 
admissible Q (u). 

3) Il arrive souvent que la solution du problème optimal est 
donnée par des fonctions continues par morceaux u; (ti) à nombre 
fini de points de discontinuité de première espèce, les instants où 
se produisent des sauts u; n'étant pas définis d'avance (la recherche 
de ces instants constitue souvent la solution du problème, cf. cha- 
pitre III). 

La première des particularités mentionnées ne présente aucune dif- 
ficulté. Il ne faut qu'inclure w; en tant que fonctions examinées au 
même titre que x;. On tombe alors dans le cas où l’espace de phase 
à x dimensions des vecteurs x est remplacé par un espace à (7 + r) 

dimensions de coordonnées x1,... 
#;(U;) es ns is ee y Upe 

Les équations du système peuv- 
ent être considérées maintenant 
comme des conditions de restric- 
tion 
Pi = Li — ]; (x1, ses ns Us 

ss U;s D =O {(2:102) 
du type (2.196). Parfois on peut 


Fig. 2.7 exclure 4 en remplaçant dans l'inté- 
DL grale © et les restrictions son 
expression donnée par les équations 
(2.162), ou éliminer x s’il est possible de l’exprimer par w. 

La deuxième particularité donne lieu à des difficultés plus gran- 
des. Il est vrai que dans les restrictions on peut passer des inégalités 
aux égalités. En effet, au lieu de u; on peut introduire d'autres 
fonctions v; associées à u; par des égalités 


u; = Dj (v) (2 163) 


et, de plus, ®; peuvent être choisies telles que, quelles que soient v,, 
les fonctions u; ne sortent pas des intervalles imposés. S'il faut 
vérifier les conditions 


| U; | < U;, (2.164) 
on peut choisir, par exemple, 
D; = U; sin V’; 12.165) 


ou prendre D; comme indiqué à la figure 2.7. La substitution (2.165) 
à été appliquée ax systèmes continus par Desoer 12.36], alors que 
la fonction du type représenté sur la figure 2.7, par Miele [2.32]. 
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La fonction (2.165) a été appliquée aux systèmes continus à état 
discret par I. Tsypkine [3.30[ et [3.31]. 

Si l'on porte maintenant u; — ®;(v;) dans l'équation (2.162), 
les nouvelles variables v; peuvent être quelconques et l’on n’a plus 
besoin de tenir compte des restrictions (2.164) sous la forme explicite. 
Ce procédé permet de résoudre certains problèmes. Une condition 
sous la forme de l'inégalité L < 0 peut être remplacée généralement 
par une condition M = 0, où 7 est nul lorsque Z est négatif et 


k 


Fig. 2.8. 


s'écarte du zéro quand Z est positif. Pourtant, dans le cas général, 
l'introduction des fonctions non linéaires associées à cette trans- 
formation peut compliquer considérablement la résolution du pro- 
blème. 

La circonstance à première vue peu importante, que d’après (2.164) 
u; peut se trouver non seulement à l’intérieur, mais aussi à la fron- 
tière d’un domaine fermé admissible, peut conduire parfois à de 
graves difficultés. Fllustrons ceci sur un exemple très simple. 
La figure 2.8,a montre une fonction dérivable continue œ (x) qui 
admet un minimum à l'intérieur de l'intervalle | u | < 1. Il est 


clair que le minimum correspond à l’un des points qui vérifient la 
condition 


= 0. (2.166) 


En résolvant l'équation (2.166) on trouve la valeur u —= u* 
minimisant  (u). 

Comme il faut tenir compte également des valeurs de w aux 
frontières de l’intervalle, il peut se trouver que le minimum repose 
sur une frontière (sur la figure 2.8,b le minimum a lieu pour u — +1). 
Il se peut alors que le point du minimum ne satisfait pas à la condi- 
tion (2.166). 

Enfin, la troisième particularité, comme le montre l'exposé 
précédent, complique sensiblement les calculs, en rendant parfois 
pratiquement impossible l'obtention du résultat par la méthode 
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classique usuelle: C'est précisément cette particularité qui:est déci: 


sive du fait que dans de nombreux cas la: commandé optimale u 
admet des discontinuités de première espèce. 

Il se trouve finalemént que peu de problèmes de la théorie des 
systèmes optimaux peuvent être résolus d’une façon‘efficace par des 
méthodes classiques du calcul des variations. 

_ Les méthodes directes ne peuvent pas non plus assurer la Ft. 
tion des problèmes de commande optimale. En effet, dans de nom: 
breux problèmes de la théorie des systèmes optimaux on ne sait pas 
comment choisir, sans connaître la solution, ‘les fonctions W; de 
la méthode de Riesz fcf. (2.159)] ou des méthodes analogues. 

Dans ce qui suit nous allons employer de préférence des méthodes 
nouvelles, notamment la programmation dynamique et le principe 
du maximum, plus adéquates aux problèmes de la théorie des systè- 
mes optimaux que les méthodes classiques du calcul des variations. 

I1 faut dire que les problèmes les plus généraux du caleul des 
variations, ceux de Mayer et de Boltz, sont intimement liés à la 
programmation dynamique et au principe du maximum (cf. (2.33, 


2.34, 2.44). 


$ 3 Programmation dynamique 


Dans les années cinquante le savant américain KR. Bellman 
avec ses collaborateurs a mis au point une nouvelle méthode générale 
de résolution des problèmes variationnels qu’il a appelée program- 
mation dynamique (cf. [2.9]. Par la suite, la programmation dyna- 
mique a été appliquée à une large classe de problèmes de la théorie 
des systèmes optimaux de commande automatique. 

Revenons au problème de la commande d'un objet décrit par 
l'équation 


2 27, à) (2.167) 


où x est le vecteur de dimension z de coordonnées æ1, . . ., æ, et 
u le vecteur de dimension r de coordonnées w4, » «+, We Soit 


uC®(u); (2.168) 
on demande de minimiser l'intégrale 
T 
Q= | Gi), u (1 dt, (2.169) 


() 


où Test considéré provisoirement fixe. Nous avons noté dans le 


premier chapitre que le cas où G et f dépendent explicitement du 
temps peut être ramené aux expressions du type (2.167) et (2.169). 
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La programmation dynamique a à sa base.le principe d'optima- 
lité. Ce principe a été énoncé par R. Bellman pour une large classe 
de systèmes dont le comportement futur est défini: entièrement ou 
statistiquement par leur état actuel. Il ne dépend donc pas de leur 
« préhistoire », c'est-à-dire du comportement du système dans le 
passé. Examinons à titre d’illustration une trajectoire optimale 
dans un espace de phase de dimension n (fig. 2. 9). aux valeurs initiale 
x. pour # = fo (généralement #, — 0) et finale a) pourt= T>t; 
du vecteur x. Supposons imposées les conditions initiales 2%, la 
valeur 2{7) étant en général inconnue. Marquons un point inter- 


médiaire qutlconque x” de la trajectoire qui correspond à £ = f”, 
où fo Lt << T, et appelons pre- 


mier le segment de la trajectoire Le 
de x° à x’ et deuxième, de x’ à x(). NS 2 
La partie de l'intégrale (2.169) cor- se TN gr) 
respondant ‘au deuxième segment PU 
T \ 
Fr Q - RE î CE 0 © 
s'écrit | Glx,.ul dt. Ce deuxième A 
Pl Tu 2 


__f À 
segment. de la trajectoire peutêtre 2 
considéré comme une trajectoire 
indépendante, qui est optimale si Fig. 2.9. 
l'intégrale correspondante est mini- 

male. Sur la figure 2.9 le premier et le deuxième segment sont 
marqués respectivement par les chiffres Z et 2. Dans le cas considéré 
le principe d’optimalité s’énonce comme suit: 

Le deuxième segment d'une. trajectoire optimale est à son tour une 
trajectoire optimale. 

Cela signifie que lorsque l’état initial du système est x” et l’instant 
initial & — {’, son mouvement optimal ultérieur est matérialisé par 
la trajectoire 2 indépendamment de la façon par laquelle le système 
a été amené à l'état considéré. En effet, raisonnons par l'absurde. 
Le critère (2.169) étudié pour l'intervalle de temps de #’ à T sera 
le plus petit non pas pour la trajectoire 2, mais pour une autre 
trajectoire 2° issue du point x’ et représentée en poaintillé sur Ia 
figure 2.9. Mais s’il én est ainsi, on pouvait construire une trajectoire 
« meilleure » que 1-2 pour le problème initial. Il fallait pour cela 


choisir la commande % telle qu'elle décrive d'abord la trajectoire 7 
et puis la trajectoire 2’. Cependant, notre point de départ était que 
là trajectoire 1-2 est optimale. Cette contradiction prouve qu'aucune 
trajectoire 2° ne peut assurer à Q une valeur inférieure à celle détermi- 
née par la trajectoire 2. On en déduit que la trajectoire 2 est optimale. 
Le principe d’optimalité énoncé ci-dessus est une condition 
nécessaire, très générale, d’un processus optimal valable aussi bien 
pour des systèmes continus que pour des systèmes discrets. 
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À première vue, le principe d’optimalité est presque trivial, il 
semble dire peu de choses. Pourtant, comme l’a montré R. Bellman, 
en raisonnant avec méthode on peut en tirer les conditions nécessaires 
d'existence d'une trajectoire optimale qui ne sont nullement trivia- 
les. Au fond, le principe d’optimalité n’est pas du tout aussi trivial 
qu'il le paraît d’abord. En effet, l'affirmation qui semble être sa 
généralisation : « Un segment quelconque d'une trajectoire optimale 
est une trajectoire optimale », n’est pas vraie. Ainsi, le premier 
segment de la trajectoire x®x’xiT) de la figure 2.9 peut ne pas être 
une trajectoire optimale, c’est-à-dire qu’il peut ne pas minimiser 
l'intégrale (2.169) sur l'intervalle de temps de f, à #’ si l’on impose 
seulement les conditions initiales 2°. | 

Le principe d'optimalité peut être formulé d’une autre manière : 

Une stratégie optimale ne dépend pas de la « préhistoire » du système, 
n'étant définie que par son état à l'instant considéré. 

Si l'on entend par « préhistoire » d’un système la trajectoire 1 
par laquelle le point représentatif est venu en position x’ (fig. 2.9), 
il devient clair que cette dernière formulation est équivalente à la 
précédente. Dans le cas considéré on entend par l’état du système 
à l’instant concerné l'état qui correspond au point x’ à l'instant 
dE 2 

Illustrons les raisonnements de R. Bellman par un exemple 


simple d’un objet dont la trajectoire est définie par l'équation du 
premier ordre 


= ji(x, u), (2.170) 


où x est l'unique coordonnée du système et x l'unique commande 
dans un certain domaine (2.168). Soit la condition initiale x (0) — 
= 4%, On demande de trouver la loi de commande u (£) minimisant 
l'intégrale 
T 
Q= | Gite, u)dt+ pile (D, (2.171) 
to 
où {, est généralement considéré nul et T est supposé fixe pour sim- 
plifier les raisonnements. Tout d'abord rendons le système discret, 
c'est-à-dire remplaçons le système continu par un système continu 


“ 


à état discret. 
Divisons l'intervalle (0, 7) en W parties égales de petite longueur 
À et considérons seulement les valeurs discrètes x = x (k) et u — 
= u(kx) (k—=0, 1, , N) aux t—0, À1A, 24, 
, KA, , (NW — 4) A, NA =7T. L'équation différentielle 
(2. 170) de l' objet peut alors être approximativement remplacée par 
l'équation aux différences finies 


LORIE L je (R), u (H)}, (2.172) 
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ou sous la forme 


| z(k + 1) — x (k) + f Lx (@), u (k)I, (2.173) 
où 
f Le (k), u (k)} = Afi [x (k), u (k)]. (2.174) 
La condition initiale reste la même: 
z (0) = Exls=o = x, (2.175) 
L'intégrale (2.171) est remplacée approximativement par la somme 
Ni 
Q= À Gta, u(H1+ pr (N)) (2.176) 
où 


G{x(&), u(k)]=Glx(k), u(k)]A, | (2.477) 


px (N)= pile (WA)] = qu [x (T)]. 


Le problème consiste maintenant à définir la suite des valeurs 
discrètes de la commande , c’est-à-dire des valeurs w (0), u (1), ... 
..., & (N — À) qui minimisent la somme (2.176) sous les condi- 
tions (2.168), (2.173) et (2.175) imposées au système. Il s’agit aïnsi 
de minimiser une fonction complexe de plusieurs variables. Nous 
verrons que la programmation dynamique permet de ramener le 
problème à des minimisations consécutives des fonctions d’une 
seule variable. 

Pour résoudre le problème on procède par récurrence en allant 
de l'instant £ — T vers le début du processus. Considérons d’abord 
l'instant £ — (N — 1) A. Toutes les valeurs u(i) (i = 0, 1, ... 

.., N — 2), sauf la dernière u (N — 1), ont été réalisées, et on 
a obtenu une certaine valeur x (NW — 1) associée à l'instant £ — 
= (N — 1) A. D'après le principe d'optimalité, l’action w (N — 1) 
ne dépend pas de la « préhistoire » du système, elle n’est définie 
que par l’état zx (N — 1) et le but de la commande. Considérons la 
dernière portion de la trajectoire de #& — (N — 1) À à 4 = NA. 
La grandeur w (N — 1) n'influe que sur les termes de la somme 


(2.176) qui se rapportent à cette portion. Désignons la somme de ces 
termes par Q y 1: 


Qui = Gx(N—1),u(N—DI+ mir (NW) (2.178) 
(2.173) entraîne 


z(N)=zx(N—1)+flr(N—1),u(N—1)] (2.179 


Par conséquent x (N) dépend également de uw (N — 1). Cher- 
chons la valeur admissible de u (N — 1) vérifiant (2.168) et mini- 
misant Qxv_1. Désignons par Sxy_1 la valeur minimale trouvée de 
On-1. Il est clair que cette valeur est définie par l’état du système 
à l'instant £ — (N — 1) À, c'est-à-dire par la valeur de x (N — 1) 
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présente dans (2.178) et (2.179). Ainsi Sy = Sy ea Et. (N. — 1]. 
Ecrivons l'expression pour S" Nat 
Sxal(N—1)]= min Qi 
| ARE NERNE, <.  : 
= min {G[e(N—4), u(N—1) + (NM) 
u(N—1)eQ(u) L 
—= min {G[z(N—1), Lo Le 
u(N—1)EQu) Re Ve 
pl (V1) + f le (N— 1), uw (N — 1). (2.180) 


Remarquons que pour définir S y 1 il ne faut minimiser que par 
rapport à une seule variable u (N — 1). Après avoir réalisé cette 
opération on obtient S , _, sous la forme d’une fonction de x (NW — 1); 
cette fonction est à retenir (par exemple, dans une mémoire quel- 
conque si le calcul se fait avec une calculatrice numérique) avant 
de passer aux étapes suivantes du calcul 

Examinons maintenant l’avant-dernier intervaile du: temps. 
En considérant ensemble le dernier et l'avant-dernier intervalles, 
on constate que le choix de u (N — 2) êt de u (N — 1) n'influe que 
sur les termes .de la somme (2.176) qui font partie de l'expression 


Qx-2 = Gr (N — 2), u (N — 2)1+ : 
H4{GIx (N — 1), u(N —1)] + œÎx (W)l}. (2. 181) 


Nous pouvons considérer comme donnée la valeur x (N — 2) 
correspondant au début de l’avant-dernier intervalle et fournie par 
la « préhistoire » du processus. Le principe d’optimalité entraîne 
que seule la valeur x (N — 2) et le but de la commande, qui consisté 
à minimiser © v_2, définissent la commande optimale dans l’inter- 
valle de temps considéré. Cherchons en utilisant uw (N — 2) et 

u (N — 1) la valeur S x-2 qui est le minimum de Q;_>. Mais le 
minimum par rapport à w (N — 1) du terme compris entre les accola- 
des de l'expression (2. 181) a été déjà trouvé ci-dessus pour éoute 
valeur de z (N — 1) qui à son tour dépend de uw (NW — 2). De plus, 
la minimisation de Q}x_1 a permis de trouver en même temps la 
valeur optimale correspondante de w (N — 1); notons cette valeur 
optimale par u* (N — 1). Si l’on tient compte également du fait que 
le premier terme de.(2.181) ne dépend pas de u.(N — 2), on peut 
écrire 
Sn-2 [t (N—2)]—= min Or 4 


“u(N—2)EQ(u). 
u(N—1)e Su) 


— min {GI (N—2), u(N—2)}+Syale(N —1)]}= 
u(N—2)EQ(u) | 


= min {G[x(N—2), u(N—2)]+ 
u(N—2)EQ{u) | - 
+ Sa (e (N—2) + f Le (N — 2), u(N — 2)]]}, 
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puisque (2.173) entraîne 
| z(N—1)=T(N —2) + fic (N — 2), u (N — 2)]. 


Constatons qu'ici .la minimisation s'effectue également . par 
rapport à à une seule variable x (N —_2). De plus, on trouve u* (N — 2) 
qui est la valeur optimale de u (N — 2), et la: valeur Sy 2 qui 
donne le minimum de la fonction Q 2. Notons que u* (N — 2) 
comme $ x_2 sont des fonctions de z (N — 2). On peut placer main- 
tenant la fonction S 2 dans la mémoire et après l'obtention de sa 
valeur. « effacer » la fonction S'x_1 1x (N — {)] désormais inutile; 

Il est important que la valeur optimale trouvée u* (N — 2) 
minimisé toute l'expression entre accolades de la formule pour S ;_» 
et non pas le seul terme G [x (N — 2), y (N — 2)]. On en tire que 
la stratégie qui consiste à choisir chaque w (N — j} par minimisa- 
tion du seul térme respectif G [x (N — j), u (N — j)] de:la som- 
me (2.176) ‘est loin d’être optimale. Elle n’est pas du tout « perspi- 
cace », fait déjà signalé dans ce qui précède. Une stratégie optimale 
tient compte du but final, c’est-à-dire de la minimisation de toute 
l'expression entre accolades, fonction de  w (N — j). : 

La procédure décrite de récurrence peut être poursuivie. La prise 
en considération du troisième intervalle à partir de la fin impose 
l'examen de la partie de la somme Q qui dépend de w (NW — 3). 
Désignons cette païtie par Qx:3, on a 


Qx:3 = GS (N —3), u (N — 3)] +{G  ( (N — 2), u (N — 2)] + 
+ Ga W—1),u(N— 1) + fx (NW). 
L'expression (2.179) permet d'écrire 
x(N—2) = zx(N —3)+ flx (N — 3), u (N — 3). 
Ensuite, le minimum du terme entre accolades de l’ expres- 


sion Qx-3 est . égal à. Sx-2 [z.(N — 2)]. Le minimum Sxy_3 de 
l'expression de Qx-_3 s'écrit 


Sy-3 [x (N— 3) — PL - {G{z(N—3), u(N—3)] + 
+ Snaté (ND) — me AGEN 3), u(N—3)+ 
+ Se (e (W— 3)+fIz(N—3), u(N —3)]]}. 
, En passant d’une façon analogue à S'yeur +, Sy-r, On obtient 
a lformule: de récurrence 


Sa-à (EN — Je in (Ge (WE), u(N—k)1+ 
| u(N—R)EQ(u 


+ Synu 2 (V—H + fe (N—R), (NH). (2.182) 


‘Tout en effectuant la minimisation du second membre de cette 
tree ‘on. définit la valeur optimale u*, qui. st fonction de 
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x (N — k): 
u* (N — k) = u* [x (N — k)| (2.183} 


et qui minimise l'expression entre accolades de (2.182). 

En calculant de proche en proche d’après la formule (2.182) 
les Sr. pour 4 = 1, 2, ..., N on aboutit à la valeur optimale 
u* (0), c’est-à-dire à la valeur du signal de la commande, qui doit 
agir à l'instant initial. En fin de compte, c'est précisément cette 
valeur qu'il fallait connaître, car on peut toujours supposer que 
l'instant considéré comme courant coïncide avec l'instant initial, 
alors que les instants ultérieurs se rapportent au futur. Avec la 
valeur u* (0) on obtient aussi S,, qui est la valeur minimale du 
critère © dans Île cas d'une commande optimale. 

La procédure considérée peut être facilement appliquée à un 
objet d'ordre nr quelconque décrit par l'équation (2.167) et à un 
nombre quelconque de commandes u, (1 = 1, ...,r). Il suffit 
de remplacer les scalaires x, uw et f des formules données ci-dessus 
par les vecteurs x, u et f et d'introduire les vecteurs correspondant 


« 


à l'instant t — £A: 


z(k)= {x (k), ..., än (k}}, | 
u(k) = {us (k), ..., ur (k)}. 


Ici u; (N — k) est la j-ième commande et x; (N — k) la j-ième 
coordonnée à l'instant # — (N — k) A. 

Remplaçons les équations différentielles (2.167) par des équa-. 
tions aux différences finies, et l'intégrale (2.169) par une somme. 
Des raisonnements analogues à ceux donnés ci-dessus montrent qu'au 
lieu de la formule (2.182) on a l'expression 


Snnlc(W—k)= min {G{z(N—Kk), u(N—k)]+ 
UN—R)ENU) 


+ Sn UV —R)+T EN — 7), u(N—H)I}. (2.185) 


(2.184) 


La procédure du calcul ne change pas si f comprend une fonction 
explicite du temps. 

Maintenant à chaque étape on a à minimiser une fonction de 
r variables ui (N — k), ..., u, (N — k). Ensuite, les valeurs 
optimales données par le scalaire Sy, et le vecteur u* (N — k) 
sont les fonctions du vecteur x (N — k), c’est-à-dire les fonctions 
de n variables x, (N — k), ..., x, (N — k). 

La procédure qui vient d’être décrite peut être appliquée, sans 
modifications de principe, aux systèmes optimaux à processus 
aléatoires. Considérons, à titre d'illustration ,un exemple dans lequel 
un objet de premier ordre subit, en plus de uw, une perturbation 
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aléatoire z, L'équation (2.173) est alors remplacée par l'égalité 
z(k +1) = 2x(x) + fx (k), u (k), z (k)], (2.186) 


où z (4) sont les valeurs discrètes de la perturbation. Maintenant 

x (k) et le critère (2.176) deviennent des variables aléatoires. C'est 

pourquoi choisissons comme un nouveau critère ©, dont la valeur 

est à minimiser, l'espérance mathématique de l'expression (2.176) ; 

de plus, pour généraliser, introduisons z comme argument de G 
N-1 


Q=MES Gie() u (0, 201486 (NN): (2.187) 


ici M désigne l’espérance mathématique. Supposons dans l'exemple 
considéré les variables z (i) et z (j), i  j, indépendantes et les densi- 
tés de probabilité P[z(0)], P [z (1)}, ..., PIz(N)] connues. 
En utilisant la procédure décrite ci-dessus cherchons d’abord pour 
tout x (NW — 1) fixé la fonction 


Syalc(N—1)]= min Qyi— 
u(N—1)EeQu) 


— min M{G[x(N—1), u(N—1), z(N—1)+ 
u(N—1)EQu) 


+ pr (N—1)+ fle (N— 1), (NW — 1), z(N—1)]}}= 


= min | P&(N—1IX 
u(N—1)£6u) 


X {G Im (N—1), u(N—1), z(N—1)+ [x (W—1)+ 
+fIz(N—1), u(N—1), z(N—1)]]} d(N—1). (2.188) 


La minimisation fournit simultanément la valeur optimale 
u*[z(N —1)]. Après avoir retenu Sy-_1 [x (NW —1)], nous recherchons 
la fonction 


Sy-2[c(N—2)]= min M{G[x(N—2), u(N—2), z(N_—2\1 + 
| u(N—2)c Hu) 


+Sw4le(N—1)}= min | P&(N—21x 
u(N = 2)EQ(u) En 


X AG [c(W—2)N, u(N—2), z(N—2)] + Sx-4 [æ (N —2) + 
+f{s(N—2), u(N—2), z(N—2)]]}dz(N—2),  (2.189} 


etc. Ainsi, la méthode de calcul est en principe la même que pour 
les systèmes réguliers. Une procédure analogue peut être appliquée 
aux objets d'un ordre quelconque. On peut étudier également des. 
problèmes plus généraux, pour lesquels P [z (i)] sont inconnues 
d'avance et lorsqu'une certaine procédure optimale de traitement 
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des observations permet d’acéumuler l'information sur les densités 
de probabilité (cf. (2.38, 5.32, 5.33h. 

Sous certaines hypothèses supplémentaires, la programmation 
dynamique peut être appliquée à l'étude des systèmes continus. 
Supposons que la trajectoire de l” objet est caractérisée par les équa- 
tions 

F2 0, (2.190) 


A l'instant initial t le vecteur z'est égal à à 0. et le critère d’optima- 
lité s'écrit 


T 
Q= |8G u, tdt, (2.191) 
to: 


en supposant pour simplifier 7 — const (ce qui en général n’est 
pas obligatoire; cf., par exemple, chapitre IV). 
Supposons que l'on ait trouvé la trajectoire optimale menant 
du point initial æ® au point final (1 (fig. 2.9). Notons S (°°, &:) 
la valeur minimale du critère Q 
L correspondant à la trajectoire opti- 
Zn | , Z{1) 


2 e ., male. D'après le principe d’optima- 
AD il lité, la portion de la trajectoire 


entre Le point æ qui correspond à 


ZT} l'instant >>, et le point final 

e atT) (fig. 2.10) est également une 
TT LL trajectoire optimale, par consé- 
T2 quent, la partie du critère © corres- 


pondant à cette portion et à l’inter- 

| valle de temps entre é et T a une 

Fig. 2.10. valeur minimale possible. Désignons 
cette valeur par S [x (f), t]. 

Soit At un petit intervalle de temps et S [x (4 + At), : + Aë] = 

— S[z’,#] la valeur minimale de la partie de l'intégrale Q qui 

co poree à la portion de la trajectoire optimale du point (4+ At) = 

— x’ au point final 20) et, par conséquent, à l' ‘intervalle de temps 

de’t + At=# à T. La relation entre S [x’, t'let S [x, él s'expri- 

me .par la formule (2. 155) : à | condition de substituer S [x, #] 

à Sa E (N — R)]l, Six’, #1 à Si es LE (W — +1) et enfin 

Glz(d, u(#, 1] Ar à Gr (N—k), u i (N =]. Cette dernière 

substitution a été réalisée dans Ja première des équations (2. 177). 

Etant donné que At est un intervalle de temps petit mais fini et que 

le remplacement de l'équation différentielle par une expression aux 

différences finies est imprécis, il faut encore: ajouter à l’un des 
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membres de l'égalité l’expression 01 (At), c’est-à-dire une grandeur 


d'un ordre de petitesse supérieur à celui de Af. Cela signifie que 


: 04 (At) . 
lim 0 = 0. (2.192) 


Ainsi, au lieu de l'égalité (2.185) on peut écrire 
SIx,t]= min {G{x,u,t]Ai+S[x",#']}+o, (At). (2.193) 


u(t) € Q(U) 


On pourrait obtenir l'équation (2.193) indépendamment du 
cas discret examiné ci-dessus. En effet, par définition 
T 
S[z,t]— min ja, u,t)dr  (tST<T) (2.194) 
u(T)E QU) } 
Ici S est la valeur minimale de l'intégrale définie sur l’ensemble 
de toutes les commandes admissibles w (t) dans l'intervalle de t à T. 
L'intégrale (2. 194) peut être mise sous la forme d’une somme 
de deux termes associés aux intervalles [#, £ + At] et [& + Az, TI. 
Comme At est petit, on peut écrire 
T 


S[x, t]— min Ga, U, t Ait | G (x, u, V) dy | + 01 (AË), 
u(T) € Q(u) t'=i+AI 

(2.195) 
où At est supposé petit et 01 (Aë) d’un ordre de petitesse supérieur 
à celui de At. Remarquant que le premier terme entre crochets de 
{2.195) ne dépend que de la valeur de x (t) à l'instant # et que seule 
l'intégrale est fonction des valeurs de x (v) dans l'intervalle de 
variation v de # — {+ At à T, on peut écrire 


‘ 
SIx,é]= min | G (Z, : u, ,t)Ai+ min | &U u, td | + oi (A) = 
u(t) E R(u) U(V) € QU) À 
= min 4{G(x,u, ti) At+S[x’, t']} Ho (At). (2.196) 
u (ES (u) | 

Le minimum de l'expression entre crochets se rapporte à la 

valeur de u (?) à l'instant {. Les formules (2.196) et (2:193) coïnci- 
dent. 

De même que dans la formule (2. 485) il faut tenir compte du 


fait que x’ —zx(t+ At) dépend de uw (f). Pour At petits (2.190) 
entraîne | 


=E(+AN = 0+T Z. At + 09 (At) = 
us [x (), u (é), t}Aë+o, (At), (2.197) 


6—0966 
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où 02 (At) est une grandeur d’ordre de petitesse supérieur à celui 
de At. La formule (2.197) est analogue à l'expression (2.173). 
Supposons maintenant que S compte des dérivées partielles par 


rapport aux variables x; (i == 1, ..., n) et t, c'est-à-dire que tous 
S ; 
les . {G —1,...,n) et — = existent. Pour le moment rien ne 


confirme cette ne ne la validité des résultats qui 
peuvent en être déduits dépend de son authenticité. Si elle ne se 
vérifie pas, les raisonnements qui suivent n’ont qu'un sens heuristi- 
que. Or dans certains cas cette hypothèse n’est pas vraie. C’est 
pourquoi pour pouvoir appliquer la programmation dynamique aux 
systèmes continus, il faut en général remplir certaines conditions 
supplémentaires (cf. (2.31, 2.331). 

Portons l’expression de x’ tirée de (2.197) dans la formule (2.193} 
et développons S$ [z’, #] en série de Taylor dans le voisinage du 


point (x,t), il vient 


S[x’, t']-=8 [x (-H At), + At] — 
= S {r(#) + ffr(), u (#), 4 At+o (At) ; t+ AH — 


OS Le t] 


S[x, n+S _ SEA Lx, u, tJAt+ AiLos(At), (2.198) 


i=1 
où 03 (At) est d’un ordre de petitesse supérieur par rapport à At. 
Cette formule peut être écrite sous une forme plus condensée en 
introduisant le gradient de la fonction S [x, t| qui est le vecteur 


de coordonnées 2 GT, 25.570); °S0it 
0S 
grad S — (E, ne) (2.199) 


La formule (2.198) se met alors sous la forme 


S{x’, t]=S [x (+ Ai), t+ At] — 
= S[x, t}+(grad S [x, t-f (x), u(t), t]) A+ 
+ 25e 1 144 08 (A. (2.200) 


Les signes ( } désignent ici le produit scalaire des vecteurs 
grad S et f. Portons (2.200) dans (2.193) et mettons en facteur les 
grandeurs S [x, é] et _ du second membre, ne dépendant pas de 


u (#. Ensuite, S {x, t] des premier et second membres s’annulent 
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réciproquement et en divisant la formule par Af on obtient: 
PA min {G{z(), #0), + 
u (1)E£2 (u) 


+(grad S [z, 4. Ir (6), u (0, 4)}+409, (2.201) 


où 0, (Ai) est d’un ordre de petitesse supérieur par rapport à Ar. 
Maintenant faisons tendre At vers zéro. Puisque o, (At) vérifie une 


condition du type (2.192), le dernier terme du second membre de 
(2.204) disparaît pour Af->0. Il vient donc à la limite: 


dS{z, à 
ôt En 


— 


min {G{æ(t}, u(t), é] + 
u (#)£Q (u) D _ 
+{gradS [x, é]-f [x (t), ut), é])}. (2.202) 

Cette expression est dite équation de Bellman. C’est une équation 
différentielle aux dérivées partielles, qui a ceci de particulier qu'à 
la suite de la minimisation, la variable u disparaît du second membre 
pour tout t. Considérons à titre d'illustration un exemple très simple 
tiré de [2.17]. Soit r = Let n — 2; de plus G = G (x1, 22) et l’unique 
commande est notée u. Les équations de l’objet s'écrivent: 
Pi fur +2, PE ju. (2.205) 
L’équation (2.202) se met alors sous la forme (pour simplifier 
l'écriture employons S$ au lieu de S [x,tl): 


S é S À | 
—% = min {a (z1, 2) + 7 (ui + 22) + e ur . (2.204) 


: CIN Q Q > . 
En supposant que — O0 minimisons l'expression entre acco- 
2 


lades par rapport à w en égalant à zéro sa dérivée par rapport à u. 
La valeur optimale u* minimisant l’expression entre crochets est 


1 OS { 
u* — 2 Gun 05 ‘ (2.205) 
OX 


En portant cette expression dans l'égalité (2.204) on a une équa- 
tion aux dérivées partielles sous sa forme habituelle 


ôS } 
GAS êS WT 
— 7 = G (x, 2) +3 RTS (2.206) 
OX» 


L'équation aux dérivées partielles (2.206) peut être résolue 
car on connaît les conditions aux limites. En effet, $S [x, T] est 
une fonction connue. Pour le critère (2.171), par exemple, elle est 


G+ 
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égale à la fonction connue ; {x (T)}, étant donné que pour to — 4 
l'intégrale de (2.171) est égale à zéro. Pour le critère (2.191), 

fonction S [x, T1 est nulle. Connaïissant la fonction S [x, 7] on 
peut intégrer l'équation (2.206). L'une des méthodes d'intégration 
approchée usuelles consiste à trouver les valeurs discrètes de la 
commande et à résoudre les relations de récurrence obtenues du 
type (2.185). Dans certains cas on peut trouver une solution approchée 
par une autre méthode (cf., par exemple, [2.35]) ou même obtenir 
une solution exacte sous une forme fermée. Les calculs fournissent 
accessoirement la valeur u* qui constitue la commande optimale. 


$ 4. Principe du maximum 


. En 1956 l’académicien L. Pontriaguine a publié avec ses élèves 
V. Boltianski et R. Gamkrélidzé l'article [2.11] dans lequel il 
a énoncé, sous forme d’'hypothèse, le principe rendant possible la 
résolution du problème général, qui consiste à rechercher le pro- 
cessus transitoire optimal du point de vue du temps de transition 
dans des systèmes continus. La découverte de ce principe couronne les 
travaux de Pontriaguine et de ses collaborateurs consacrés. aux 
problèmes de commande optimale; certains problèmes ont été 
formulés par l’auteur du présent ouvrage dans les rapports sur la 
théorie des systèmes optimaux présentés en 1954 au séminaire dirigé 
par Pontriaguine. Dans les ouvrages qui depuis 1956 ont suivi la 
première publication [2.12-2.14, 2.16, 2.18, 2.21], Pontriaguine, 
Boltianski et Gamkrélidzé ont démontré que le principe du maximum 
est un critère nécessaire et suffisant d’un processus optimal daus les 
systèmes linéaires et un critère nécessaire dans les systèmes non 
linéaires. Par ailleurs, le principe du maximum a été généralisé au 
cas de la minimisation d’une intégrale et de la restriction des coor- 
données de l’objet. Par la suite, L. Rozonoère a étudié d’autres 
méthodes 12.15, 2.17, 2.19]. Dans ses travaux il a mis en évidence 
le rapport existant entre le principe du maximum et la programma- 
tion dynamique et a justifié la validité du principe du maximum 
pour les systèmes linéaires continus à état discret (cf. aussi [1.22, 
2.201). Dans (3.43, 3.44] A. Boutkovski a généralisé le principe du 
maximum à quelques classes des équations intégrales décrivant les 
systèmes à paramètres répartis. 

_ La démonstration du principe du maximum donnée dans les 
travaux de Pontriaguine et de ses collaborateurs n'a aucun rapport 
immédiat avec le principe d’optimalité de Bellman et la program- 
mation dynamique. Toutefois, il nous paraît plus commode de 
déduire d’abord le principe du maximum de l’équation de Bellman 
12.17, 2.20] pour montrer le lien qui existe entre ces deux principes. 
Dans ce qui suit la déduction du principe du maximum est donnée 
indépendamment de la programmation dynamique. 


& 4] PRINCIPE DU MAXIMUM 85 


Ecrivons l'équation (2.202) sous une forme plus compacte. 
À cette fin introduisons une coordonnée supplémentaire x,+; en 
posant (Zn+1)5=0 — 0, dont l'équation est 


dza à 
EE = frs = 1. (2.207) 
Si à l'instant initial # = 0, alors x,+, — £. Au lieu de { on peut, 


# Q : . OS OS 
écrire x,+1 et au lieu de Dos 


. Introduisons de plus la coor- 
: n+ 
donnée xo cf. (1.56)] d’équation 
dx ne _— | 
= jo=G [x, uw, tl=@ [Z, U, Zn], (2.208) 
avec (to}s=0 = 0. Le problème de minimisation de l'intégrale © se 
ramène à la minimisation de la grandeur (tom = 2. 
Introduisons maintenant les vecteurs généralisés dans un espace 
à (nr + 2) dimensions: 


= (Zo: Lis ces Ln) Ln+t) | (2 209) 
Î — (fo è ..) In În41) 
et 
“rs 4S OS OS 
p=(—1, 6 ? .…; 07! ——) (2.210) 


Transposons: — 7) de l'expression (2.202) dans le second 


membre tout en retenant que le minimum de l'expression du second 
membre signifie le maximum, pris avec le signe moins, de l’expres- 
sion de signe opposé. En effet, pour un y quelconque on a Îa relation 

max (—u) = —min y. (2.211) 


Si l’on tient compte de (2.207), (2.20) et (2.211), l'expression 
(2.202) peut être mise sous la forme | 


O= max {Ga, u, sul (—1)— 

u(t)EQ(u) 
A 
OTn+1 


—(grad S'{x, Znulef [E, U, Enul) — 


(+1)} . (2.212) 


En comparant cette relation avec les expressions (2.209) et 
(2.210) pour les vecteurs f et 1 on voit que la condition (2.212) peut 
s'écrire sous une forme très compacte: 

O= max {(pf)} (2.213) 
u(H)EQCU) 

Introduisons maintenant ce qu’on appelle un hamiltonien; 
c'est le scalaire 

Le 
H=(pf}= 2 Vif: (2.214) 


i=0 
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où Ÿ; et 7; sont les i-ièmes coordonnées des vecteurs Ÿ et f respective- 
ment. L'egalité (2.213) s'écrit alors 
O— max À. (2.215) 
u(#)EQu) 
Cette expression traduit précisément le principe du maximum 
de Pontriaguine. 
L'expression (2.215) entraîne deux conclusions t 
a) Si le processus est optimal, et pour déduire (2.202) c'est 
précisément notre hypothèse de départ, à tout instant #, u* (é) est 
une commande optimale, commande qui rend maximale la gran- 
deur À et, de plus, 
Hay max H— max (hf) = 
u(t)EQCu) u(t)EQ(u) 
AE RE 
— max D Vif. (2.216) 
u(H}EQQu) Û 
Dans cette formule la grandeur Â{ dépend de w car le vecteur f en 
dépend. Dans un point considéré de l’espace x à (n + 2) dimensions 
la grandeur À est bien définie comme fonction de w si l’on connaît 


le vecteur 1; or ce dernier est bien défini si l’on connaît La fonction 


Ex fr f La Le Q dS Q 
S [x, z1+1l et, par conséquent, ses dérivées partielles = (i — 


Fe 
—1,...,n+1). 
Aïnsi le choix de la commande optimale est en principe très 
simple ; il faut à chaque instant donné choisir w de sorte qu’on puisse 
assurer à l'hamiltonien À une valeur maximale possible (compte 


tenu des restrictions imposées à u). 


b) La valeur maximale de la grandeur À est la même en n’importe 
quel point de la trajectoire optimale : elle est nulle. 
Pour donner l'interprétation géométrique introduisons la fonction 


auxiliaire S, qui est fonction du point x dans un espace à (x + 2) 
dimensions, définie par la formule 


S = zo + S (ti, +. Zn Tnt). (2.217) 


Considérons dans l’espace x à (n + 2) dimensions la trajectoire 
du point représentatif qui se déplace de la position initiale x'® vers 
la position finale axtT). 

Etant donné que $ est une fonction continue d’un point de l’espa- 
ce x, on peut trouver dans cet espace une surface qui constitue le lieu 


géométrique des points $ — const. Appelons les surfaces de ce type 
isosuriaces. 
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En comparant (2.217) et (2.210) on voit que les coordonnées 
du vecteur % sont assujetties à S par les égalités 


D (2.218) 
Ôx; 


Par conséquent, le vecteur Ÿ est le gradient pris avec le signe 
moins du scalaire S dans l’espace x à (n + 2) dimensions: 
Ÿ— —grad $. (2.249) 
On sait de l'analyse vectorielle que le gradient est orthogonal 
à la surface $ — const. Considérons au point x le vecteur 


& 


f = Te : (2.220) 


La condition À — max coïncide avec celle du maximum du 
produit scalaire des vecteurs w et ÿ ou, le vecteur Ÿ au point x concerné 
étant donné et indépendant de &, avec la condition du maximum 
de la projection du vecteur f sur la direction %. Ainsi le principe du 
maximum interprété géométriquement consiste à choisir une com- 
mande x de telle façon qu'elle maximise fa projection du vecteur de 


: : g + À : . 
la vitesse du point représentatif JD sur la direction de la normale 


à l’isosurface en point x considéré. Notons que a projection est 
négative et que d’après (2.215) sa valeur maximale est égale à zéro. 

Considérons le cas particulier lorsque le temps #t ne figure pas 
explicitement dans l’équation de la trajectoire ni dans la fonction G 
et lorsque le temps 7 du processus transitoire doit être He 


Dans l'équation (2.208) il faut alors poser G = 1; de plus, e = (. 
Alors (2.212) entraîne 
MAX {__prad S [x, fé}: À (€, ul) = 1. (2.221) 


uEQU) 
Nous insistons sur le fait que x «t f sont ici des vecteurs d’un espace 


% 


à n dimensions. 


Posons 
H := — (grad S.f) — (y f), (2.222) 
où le vecteur 4 à n dimensions est défini par l'expression 
d = —grad S. (2.223) 
La condition (2.221) s'écrit alors 
max A —1. (2.224) 
ue Qu) 


C’est la forme que prend le principe du maximum dans le cas 
particulier considéré. Maintenant on peut étudier la trajectoire du 
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point représentatif dans un espace x à nr dimensions (fig. 2.41). 
La commande optimale w doit être choisie de façon à maximiser 
le scalaire H à chaque instant donné, la valeur maximale de H 
en un point quelconque de la trajectoire étant égale à 1. Comme 
dans le cas envisagé 


T 
S[z, t|— | L.dt=T—t, (2.225) 
t 


où {est l’instant courant, la grandeur S traduisant le temps nécessai- 
re pour atteindre le point final diminue à mesure que # croît. Par 


conséquent, le vecteur 1, qui coïncide avec le sens de la décroissance 
la plus rapide de S, est dirigé vers 
l'« intérieur » de l’isosurface S$ — const 
(fig. 2.11) entourant le point final 
x(T). Dans ce cas particulier les iso- 
surfaces S$ = const deviennent des 
surfaces des temps égaux 1; = T —1; 
nécessaires pour rejoindre le point 
final z (7). Dans [3.6] ces surfaces 

Fos sont appelées surfaces des isochrones. 
: te Le principe du maximum appliqué à 
ce cas impose un choix de w tel que la 


DT 


T, = const projection de la vitesse Æ du point 
représentatif de l’espace de phase 
Fig. 2.11. sur la direction de la normale à 


l’isosurface soit maximale. Des con- 
sidérations physiques intuitives mènent à la même conclusion. 
En effet, le déplacement le long d’une isosurface, par exemple 
T2 — const (fig. 2.11), ne donne aucun gain puisque le point 
représentatif reste toujours en position d’où au meilleur des 
cas il peut atteindre le point final 27) au bout des mêmes T> secon- 
des. Or, plus rapide est le cheminement du point représentatif le 
long de la normale à isosurface, plus vite il se déplace vers l’isosur- 
face « suivante » T2 — Af = const et, par conséquent, le temps 
nécessaire pour atteindre le point final (7) devient de plus en plus 
petit. 
Nous avons dit plus haut que l'application de la méthode de 
programmation dynamique impose la recherche des fonctions S (x, #] 


ou #, liée à des opérations délicates comme, par exemple, la résolu- 
tion des équations aux dérivées partielles. Cependant l’emploi du 
principe du maximum exige qu'on connaisse seul le vecteur 4 assujet- 
ti à une trajectoire optimale et ce vecteur peut s’obtenir sans cons- 
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truire des surfaces $ — const. Pour trouver vd il faut résoudre ce 
qu’on appelle des équations adjointes. 

Dans les ouvrages [2.12] et [2.21] on trouve diverses méthodes 
de construction des équations de ce type. Nous employons une 
méthode analogue à celle de (2.211. 

Supposons que la fonction S (x) ait des dérivées secondes par- 
tielles par rapport à tous les x; (i —0, 1, ...,n+ 1), c’est-à-dire 
qu'elle soit deux fois dérivable. Considérons les variations du vec- 
teur 1 lors du déplacement du point représentatif le long de la 


trajectoire optimale. Etant donné que = [x (t)], le vecteur w est. 
donc une fonction du temps. On peut alors trouver les dérivées: 


te ue n+i _ à 
= 5 (= — 5 0 (2) & 
dt dt ôz; 0 67; ÔT; di 
 &5 
2 == ji G=1,...,n+1). (2.226) 
: Ôx;0x; 
j=0 J 
7. dz; 
Ici }; remplace un 


Comme on le voit de (2.210), la coordonnée 1, est toujours égale- 
à (—1). On a donc 


dÿo | 
So 0. (2.227) 


Si dans l'expression de À (2.214) on substitue à w (t) quelconque: 
la commande optimale u* (£) le long de la trajectoire optimale con- 
sidérée, on a en vertu de (2.213) 


n+1 n+1 & 
: ; 0x; 
3—=Ù 3—0 
Fixons maintenant l'instant ?, u* (f) est alors également une: 
grandeur fixée. Pour les points de l’espace x différents du point. 
de la trajectoire concernée, la commande u* (t) donnée n’est pas. 


optimale; par conséquent pour ces points la grandeur À n’atteint. 
pas son maximum. Ce raisonnement entraîne qu'avec £ et u (t) — 


— u* (i) fixés, la grandeur Ÿ — (p}) atteint son maximum (égal 
à zéro) précisément en un point de la trajectoire optimale et, par: 
conséquent, en ce point les dérivées de À par rapport à x; deviennent. 
nulles. En dérivant l'expression (2.228) (tout en dérivant également 
par rapport à Z; pour rendre compte de l'accroissement de Ÿ aux. 
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points déplacés) on aboutit aux égalités 


9 EX 2 
{ et À rt — Er ee 
x; À dx; fs) 2 Ôx j tx; 1 
nd 2 
OS  Ôf; ; 
#59 (G=1,...,n+1), (2.229 
ee 0x; Ôx; 
d'où l'on déduit 
n+ 1 2T FL. en 
« Ô os 0 df j | 
D D EH (G=1,..., n+1). (2.280 
j=0 Ôz ; Ôx;j ÔT j ÔT; . 


Remarquant que le premier membre de (2.230) est identique 
au second membre de (2.226) remplaçons le second membre de (2.226) 
par le second membre de (2.230). On a 


re ES ee. 
ÿi 4 073 NA: CE 
— — e —_——— ZT A D | = L —= Â 3... 7 T1 «| » 2.231 


Nous avons là un ensemble d'équations adjointes qui, avec 
(2.227), définissent la variation du vecteur 1 sur la trajectoire opti- 
male. Notons que les équations | (2.231) sont linéaires par rapport aux 
coordonnées ,; du vecteur . 

Dans l’ l'expression de À pou le point x considéré de la trajectoire 
optimale Y est donné et il n’y a que le vecteur ÿ qui dépend de x sous 


une forme explicite. La dérivée partielle de À par rapport à x, s'écrit 
alors comme suit: 


0H se ôf 
: Of; 
= 2 Ÿ; FA (2.232) 


En comparant cette expression avec les équations (2.231) on 
remarque qu’on peut écrire ces dernières sous une forme compacte 


di _ 0H 
dt — 7, éx: (£ — À: +. 4) À 1). (2.233) 
Notons que la formule (2.228) permet de tirer 
0H + 
a .23 
dŸ; fi, (2 2 4) 


puisque f ne dépend pas de di. Par conséquent, les équations de la 
trajectoire de l’objet peuvent s’écrire: 

dt; _ 0H _ | 

er En (Gi =0, 1, Sens n + 1). (2.235) 
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pa 


Les systèmes d'équations du type (2.233) et (2.235) sont dits 
équations adjointes canoniques. 


Ainsi, la valeur du vecteur 4 est donnée par les équations diffé- 
rentielles ordinaires (2.281) et (2. 233). Mais si le vecteur d est connu, 
nul besoin de calculer la fonction $. En appliquant le principe du 
maximum on résout conjointement deux systèmes d'équations, 
principal et adjoint. 

Considérons un cas particulier où le temps n’est pas présent 
explicitement dans les équations de l’objet. Il s’agit d’assurer la 
durée minimale du processus transitoire. Dans ce cas G == 1 et on 
peut utiliser la grandeur Æ de (2.222) au lieu de À, ainsi que l’espace 
de phase x à r dimensions au lieu de l’espace x à (7 + 2) dimensions. 
Les équations de la trajectoire de l'objet s’écrivent alors 

ES (—1,...,n), (2.236) 
se les équations adjointes (2.231) Îcf. également (2.233)] sont de la 
orme 


HE (CESR ER A (2.237) 

Cherchons maintenant à démontrer, en nous basant sur une autre 
méthode, que le principe du maximum est un critère d'optimalité 
nécessaire. Nous allons suivre la méthode proposée par L. Pontria- 
guine et ses collaborateurs, mais en simplifiant légèrement l'exposé 
pour rendre plus aisée l’assimilation du texte. Cette méthode nous 
semble utile sous deux rapports. D'abord elle permet de comprendre 
le caractère dynamique du principe du maximum, vu sous une 
optique différente de celle exposée dans ce qui précède. Ensuite, 
indépendante de la programmation dynamique, cette méthode 
permet d'abandonner les hypothèses sur la dérivabilité de la fonc- 


tion S [x, t] qui ne sont pas justifiées par la nature du problème. 

Pour simplifier notre exposé posons que le temps T est fixé et que 
l'extrémité de la trajectoire est libre. Soit l'équation de la trajectoire 
de l’objet 


_=T(, à) (2.238) 
et la grandeur à minimiser 
Q=xf?. (2.239) 


Considérons les fonctions f; bornées et continues par rapport 
à tous leurs arguments et dérivables par rapport à æ3 (j = 0, 1, 
., ñn + 1). Soit encore la commande w (f), qui appartient à la 
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classe des fonctions continues par morceaux vérifiant la condition 


u (t)EQ (u). (2.240) 
Admettons que la valeur initiale du vecteur x soit donnée 
(x)1=0 = 29, (2.241) 


Sous ces conditions il faut définir la trajectoire optimale z* (t} 
O0 — t  T) et la commande optimale u* (} minimisant le critè- 
re 

Pour plus de simplicité nous examinons dans ce qui suit le cas 
r = À à commande unique; il est clair que Îles raisonnements et 
résultats obtenus sont valides également dans le cas r > 1. 

Supposons que nous avons trouvé z* (i) et u* (4). 

Considérons la courbe u* (t) (fig. 2.12). Nous avons déjà remarqué 
que cette courbe peut contenir un nombre fini de points aux discon- 
tinuités de première espèce. Proposons-nous de choisir la commande 

optimale sur un intervalle de temps 


u(t} , infiniment petit 
[LE T—e<Li<T, (2.242) 
u*(t) LI u*(t) où € est une grandeur infiniment 
De petite, 0  T<< T. Faisons varier 
la commande sur un intervalle infi- 
| niment petit (2.242), en la modi- 
0 Ras: F7 diant à partir de la grandeur opti- 


male u* jusqu'à une autre grandeur 

| u = u*. De plus, sur tous les autres 

Fig. 2.12. intervalles (0, t — €) et (xt, 7} la 

commande reste inchangée et égale 

à u* (#). La variation de u (4) qui se caractérise par une pointe x de 

LA commande sur un intervalle infiniment petit s’appelle « petite » 
variation. 

Notons que lors d’une « petite » variation l'accroissement (u—u*} 
ne doit nullement être aussi petit que l’on veut. Au contraire, les 
grandeurs x et u* peuvent être quelconques, pourvu qu’elles ne 
dépassent pas les limites admissibles. Par exemple, si la commande 
est restreinte par la condition 


[uI|< U — const, (2.243) 


alors u, de même que u*, doit satisfaire à cette condition, le module 
de leur différence pouvant varier entre 0 et 2U. 

L'idée d’une « petite » variation présente cet intérêt que, malgré 
la valeur finie de la différence (4 — u*}, l'influence de cette varia- 
tion sur le mouvement ultérieur de l'objet est infiniment petite. 
De simples considérations physiques rendent évidente cette particu- 
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larité. En effet, on sait que l’action exercée sur un système par une 
courte impulsion quelconque est appréciée d’après la valeur de l'aire 
sous cette impulsion. L’aire (4 — u*) e de l'accroissement étant infi- 


niment petite, son influence sur la trajectoire x (#) (t => t) est égale- 
ment infiniment petite. Dans ce qui suit nous justifions cette pro- 
position. 

Notons également que la « petite » variation diffère de la varia- 
tion utilisée dans le calcul des variations classique. La variation 
classique doit être une fonction suffisam- 
ment lisse, alors que la « petite » variation 
représente un échelon. Ce n’est qu’en exa- 
minant la classe des fonctions x (t) conti- 
nues par morceaux qu’on peut faire inter- 
venir la « petite » variation (fig. 2.12). Or 
c'est précisément cette dernière qu'on prend ph 
comme point de départ pour déduire le 5 £, 
principe du maximum. Ainsi, la discon- ra 
tinuité, qui dans le calcul des variations ET 
classique est une pierre d’achoppement, 
devient un précieux outil dans la théorie Fig. 2.13. 
du principe du maximum *).. 

Après une variation de la commande sur l'intervalle infiniment 
petit T—e<t< la trajectoire ultérieure x (t), >> v, diffère 
de la trajectoire optimale x* (f}. La différence entre ces grandeurs 
à l'instant & — x est égale, aux infiniment petits d'ordre supérieur 
près, au produit de la différence des vitesses des variations 


(ET), par l'intervalle de temps €: 
=T 


— - dx {dE | 
20-20 =e (5). (5...) 

=e{f[z(r), u(r)]—/[2(), u*(x)]}. (2.244) 
Cette différence étant infiniment petite, mais différente du zéro, 
il existe, en général, un certain écart entre les trajectoires x (#) et 
z* (t) pour £ >> t. En effet, bien que pour £>>7T u* (é) soit la même 


CN 


pour les deux trajectoires, d’après (2.244) à l'instant # — + les 
valeurs de zx (r) et de x* (tv), qui sont des « conditions initiales » 
pour l'intervalle t << << T, diffèrent l’une de l'autre. Par con- 
séquent, pour # > *%, x (t) et x* (f) né coïncident pas. Cependant, la 
différence x (x) — x* (x) étant infiniment petite, la trajectoire ulté- 
rieure # (£) différera d'une valeur infiniment petite de x* (t). La figu- 


:, +) H est à noter que la « petite » variation a été utilisée également dans 
d'autres généralisations des méthodes variationnelles classiques. 
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re 2.13 illustre bien cette divergence des trajectoires x (#) et x* (t} 
pour >> T. 

[ntroduisons le vecteur de la variation de la trajectoire ôx (t} 
de coordonnées Ôx; (j = 0, ..., n + 1), défini par l'égalité 


dx (t)=-c(t)—2*() (T<t<T). (2.245) 


En vertu de (2.244) la valeur « initiale » de la variation pour 
1 — 7 est égale à 


Gx(t)=e{fte(t), u(t)]—flr(r), u*(r)]}. (2.246) 

Etant donné que pour #>> x x(t) diffère de x* (f) aussi peu 

que l’on veut, la variation ôx (4) de la trajectoire est infiniment. 

petite. Sa loi peut être donc établie à partir des équations linéaires 

pour faibles variations de x (f) qu’on appelle équations aux varia- 

tions. Les équations aux variations s’obtiennent à partir iles équa- 

tions principales 

dj + = — : 

= Jo Dis ssesduit d) O=bisis RnED, ‘(2:247) 

en remplaçant Îles z; par z; + ôx; { = 0,..., n + 1) et en rejetant. 

dans le développement en série de f; par rapport à Ôx; les termes 
d'ordres de petitesse supérieurs, on à 


d dj) 7 ue > z 
cire = f; Ce 5%, end dis Las di OL = 
= Où es Lis ces nt) u) + 
n+i F 
— fs — re Qué mé 
—|- > Oxi 7 (to ses Lis cos Ln+1) u) + 0 (ôx). (2.248) 
i=0 : 


En tvjetant le terme o (6x) qui contient des termes d’ordre de 
petitesse supérieur au premier et compte tenu de (2.247), on aboutit. 


aux équations aux variations linéaires pour Ôx;: 


CRUE SE EU (20 ...,n+1) (2.249) 
Mer ôx:; 

Ces équations peuvent être intégrées sous les conditions initiales 
(2.246). Notre intérêt est porté tout d'abord à la grandeur (ôx);-r, 
plus spécialement à à la valeur de la coordonnée 6x9 à l'instant & = T. 
En effet, d'après (2.239) cette valeur est une variation 6Q du cri- 
tère Q dans l'intervalle 7 — 8 << t << Tt due à une « petite » varia- 
tion. Comme la commande optimale u* (rt) assure la valeur de Q mini- 
male, toute autre commande uw (rt) ne peut qu’augmenter la valeur 
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de Q. Par conséquent 
8Q — (6xo}=r > 0. (2.250} 
Cette relation peut être mise sous la forme 
—0Q = — (6xohr = (6x (T), VIT) KO, (2.251) 


où vd (T) est un vecteur choisi de façon que le produit scalaire de 
Ôx (T) par ÿ (T) soit égal à 8x0 (T). Il est clair que la coordonnée 


de ce vecteur Ÿo (7) — —1, alors que les autres coordonnées 1p; (T) — 
—0 G=1,...,n +1). Ainsi 
D (T) = (1, 0,..., 0). (2.252) 


Le produit scalaire (2.251) représente l'effet que la « petite » 
variation, apparue à l'instant 2=—7, produit sur le but final, c’est-à- 
dire sur le critère d'optimalité Q@ ou sur %o, à l'instant 4 = T. 
Soulignons que l’idée maîtresse de la déduction du principe du 
maximum consiste en ce que cette influence peut être évaluée à l’aide 
des équations linéaires aux variations (2.249), car elle est aussi 
petite que l’on veut. La linéarité des équations simplifie beaucoup 
la démonstration. Ainsi, deux « petites » variations se manifestant. 
à des intervalles de temps infiniment petits différents peuvent être: 
considérées indépendamment l'une de l’autre par suite des propriétés: 
d’additivité propres aux équations linéaires. Le choix de la valeur 
optimale de w (rt) à un instant quelconque peut donc être guidé 
formellement par le souci de rendre la valeur de l’accroissement — 60 
correspondant la plus grande possible, indépendamment du processus: 
de commande à d’autres instants. Pour les commandes non optimales, 
cette grandeur, égale, d’après (2.251), au produit scalaire 


—5Q — (6x (T), Ÿ (T)) (2.253) 


sera négative. Elle ne devient nulle que pour w (rt) — u* (rt) en: 
atteignant alors sa valeur maximale. Au fond, la condition (2.251) 
signilie qu'une commande non optimale est « pire » qu’une comman- 
de optimale, car l’effet qu’elle produit est plus faible. 

L'expression (2.253) n’est pas assez commode, car pour la cal- 
culer il faut au préalable intégrer l'expression (2.249) et obtenir: 
6x (T) en fonction de la condition «initiale » Ôx (rt). Or (2.246) 
montre que c'est précisément x (x) qui est liée directement à w (t). 
Donnons-nous pour tâche de rechercher le vecteur 4 (4 tel qu’il véri- 
fie la condition 


xt, PE) = ZT), PT) GSIST). (2.254) 
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Dans le cas particulier pour £ — T on arrive à l'égalité 


x (t), P(t)) = (ET (T), DT) (2.255) 


et on peut juger de 6Q d’après le premier membre de cette égalité, 
directement lié à Ia valeur cherchée de w (x). 
I1s’avère qu’on peut trouver une équation différentielle à laquelle 


satisfait le vecteur 4 (4. En vertu de (2.254) 


(xt), P(t)) = const (TLILT). (2.256) 
On en tire 


2 (EE (6), D) =0 (T<LE<T), (2.257) 
où 


CO, Foÿ+ (or, HU) 0 (<r<T). (2.258) 


EÉcrivons cette égalité sous une forme développée 


n+i 
> à 1827 6) QL Ÿ; D+S dx (+) 2 di €) =. (2.259) 
3=0 i=0 
Remplaçons ae par ses valeurs tirées de (2.249), on a 
n+1 n+1 C à 
(z, u) . dre — 
2%  (#) À 67, 6. 0) Dr - 5 6x:(6) VÙ 20. (2.260) 


i=0 
En TR l'ordre de sommation par rapport à ë et j dans le 
premier terme, on aboutit à l'expression 
n+1 
S ê (5 ( 260 Aus 2 A0 HED}=0. (2.261) 
i—=0 3—=0 
D'après (2.257), le premier membre de (2.261) est identiquement 


nul quels que soient Ôz;. La condition nécessaire et suffisante en est 
l'égalité à zéro de l’expression entre accolades de (2.261), d’où l’on 
tire 


di () 53 D, (6) Ps D (j=0,...,n+1). (2.262) 

j=0 
Les égalités (2.262) te un ensemble d'équations diffé- 
rentielles, linéaires par rapport à 4%;. On voit sans peine que les 


équations (2.262) et (2.231) sont identiques. Par conséquent, en 
procédant comme indiqué, on aboutit également aux équations 


$ 4] PRINCIPE DU MAXIMUM 97 


adjointes du système principal (2.249). Ces équations doivent être 
résolues pour les conditions aux limites (2.252). | 
Examinons maintenant la grandeur Îcf. (2.255) et (2.251)] 


—_5Q = (8x (1), v(D)<0. (2.263) 


En y portant Ôx (t) tirée de (2.246) on tombe après simplification 
par € sur 


Feut), prp—fi(, ut (01 p)<O. (2.264) 
Introduisons maintenant la grandeur 
Hz), (ol (x). (2.265) 


L'inégalité (2.264) montre que le maximum de À est obtenu pour 
la commande optimale u* (rt). On en déduit le principe du maximum : 
u (rt) doit être choisie de façon à maximiser la valeur de À. Tous ces 
raisonnements se généralisent aisément au cas de r => 1, en rempla- 
çant w par u. 

Considérons maintenant le mode d'application du principe du 
maximum. Pour rechercher la trajectoire optimale x* (f) et la com- 
mande optimale u* ({) on résout simultanément deux systèmes 
d'équations, le système principal et adjoint. Supposons. que le 
système démarre à t — 0 à partir d'un certain point x = x. 
Imposons-nous également une certaine valeur initiale ÿ® du vec- 


teur qui nous est inconnue d'avance. La valeur du vecteur x au 


point initial 2° est choisie à partir de la condition À = max de 
façon qu'elle maximise le produit scalaire 


(A yx. 0) = opo) — ee ; vo) . (2.266) 


Après avoir choisi la commande (u);,=, on peut calculer à partir des 
systèmes d'équations principal (2.235) et adjoint (2.233) les accroisse- 
ments A; et Az; sur un intervalle de temps At suffisamment petit. 
Par conséquent on peut trouver les valeurs des vecteurs 1 et x en un 
nouveau point de la trajectoire optimale, voisin du point initial 
et correspondant à l'instant £ — At. Toute la procédure décrite 
est reprise pour le nouveau point : on recherche une nouvelle valeur 
optimale u* et de nouveaux accroissements M; et Azx;, le point 
représentatif se déplace en position successive correspondant 
à l'instant le plus proche { — 2Aï, etc. En procédant ainsi de proche 
en proche on trace toute la trajectoire optimale. 

La procédure exposée de la construction d'une trajectoire optima- 
le compte jusqu’à présent un point obscur. On ne sait comment choi- 


7—0966 
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sir les valeurs initiales des coordonnées 4° du vecteur w. Il se trouve 
que le choix de ces valeurs est lié aux conditions aux limites du 
problème. 

Considérons quelques cas particuliers. 

1. Problème à extrémité libre de la trajectoire et à temps fixé T. 

Le problème qui consiste à minimiser la fonctionnelle Q se 
ramène, comme nous l'avons montré dans ce qui précède, à mini- 


miser la valeur x, (T) en introduisant la variable Lo. On sait de ce 
qui précède qu'il faut choisir à cet effet la commande telle que Île 


Se dx à ne RE 
projection du vecteur = sur la direction + soit maximale. Pour le 


«dernier » intervalle de temps infiniment petit T7 — At<tI<T 


la direction correspondante Ÿ est donnée par la formule (2.252), dont 
le sens est facile à expliquer. Pour minimiser au possible l’accroisse- 


ment zo (7) pour t = T — At il faut orienter le vecteur 1 dans une 
direction inverse à zs. Mais, comme on le voit sans peine, cette 


direction + coïncide avec celle du vecteur % (7) définie par la for- 
mule (2.252). 
Ainsi, dans le problème considéré il faut trouver une solution 


4 (4) telle pau vérifie les conditions finales 


as 


—1, #20 (G=1,..., 241) (2.267) 


Les valeurs initiales 4{° doivent être choisies de façon que les 
valeurs finales 47 soient égales aux grandeurs imposées et définies 
par (2.267). 

Ainsi, les solutions des systèmes d'équations principal et adjoint 
doivent satisfaire aux :conditions initiales x(0) pour le’ vecteur x et 


aux conditions finales (2.267) pour le vecteur %. En général, il faut 
résoudre le problème d'intégration d’un système d'équations par 


rapport à x et à 4 pour les conditions aux limites données. Les n +2 
conditions initiales pour æ(0) et les r + 2 conditions finales (2.264) 


pour #1) donnent toutes les conditions aux limites nécessaires pour 
la résolution du problème. 
2. Problème de la commande en temps minimal à extrémité 


de trajectoire x(7) fixée dans un espace de phase x et à temps 7 non 
fixé d'avance. 

On demande de choisir une commande telle que le point repré- 
sentatif x soit déplacé de la position initiale x(0) en position finale 
indiquée 2(T) en un temps minimal possible (fig. 2.14). 

Pour résoudre conjointement les systèmes d'équations principal 
et adjoint (2.236) et (2.237) tout en choisissant la commande u qui 
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maximise la grandeur À en chaque point de la trajectoire optimale, 
il faut connaître en tout 2n conditions initiales. Ce sont les valeurs 


initiales 2%, ..., x des coordonnées du point zx dans l’espace 


de phase et les valeurs initiales 4°, ..., 19 du vecteur %. Les 
premières 7 valeurs sont imposées. Quant aux #7 coordonnées initia- 


les du vecteur Ÿ , leur choix doit être tel qu'elles vérifient les condi- 
tions aux limites imposées à l'extrémité de la trajectoire optimale, 
c'est-à-dire les valeurs imposées 2) , ..., a des coordonnées 
du point final x1), On obtient ainsi n conditions pour nr inconnues 
9 G—=1,...,n). 

Il n'existe pas de règle générale pour le choix des valeurs initiales 
ÿ{® des coordonnées du vecteur #. Choisissons au hasard le vecteur 


40) (fig. 2.14). Construisons par le procédé exposé ci-dessus la 
trajectoire optimale M,M;. Elle ne 


passera pas en général par le point M, 
nécessaire M7 pour lequel x — 27). 4 
Introduisons alors une autre valeur 

du vecteur 40) et construisons une ge FT) 
autre trajectoire MoM2 et ainsi de \ 


suite, tant que cette trajectoire ne 
passe par le point M7. Cette procédure 
peut être améliorée en introduisant 
une mesure de distance r dans 
l’espace de phase depuis la trajectoire 
optimale M,M, jusqu'au point W} 
concerné [3.25]. Cette mesure peut être donnée, par exemple, par la 
plus petite des distances euclidiennes des points de la courbe MM, 
à Mr. Alors, en procédant comme indiqué plus haut il faut choisir 
les coordonnées 4°, ..., 4% du vecteur 4) telles qu'elles mini- 
misent la grandeur r qui en dépend 
r=r(p, ..., 90) = min. (2.268) 
Ce minimum, certes, doit être égal à zéro. La fonction r peut 
donner lieu à plusieurs minimums mais la valeur recherchée consti- 
tue le minimum minimorum. 
Ainsi, la procédure consiste en premier lieu à réaliser une série 


de maximisations de Æ# par rapport à uw pour tout petit intervalle 
de temps At d’où il résulte le « tracé » de la trajectoire optimale 
M ,M ; dans l’espace de phase. Pour toute trajectoire optimale cons- 
truite de cette façon on calcule la valeur de r correspondante. Ensuite, 
par un choix convenable de 4£{° (i = 1, ..., n) on r inimise r qui 
est leur fonction (2.268) en la réduisant à zéro. Ce n'est qu’alors que 
s'achève la résolution du problème. À l'heure actuelle il existe un 


7*+ 
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appareillage de synthèse automatique des systèmes optimaux [3.25, 
3.71], (6.4, 6.6}, qui réalise automatiquement cette procédure. 
Le principe qui régit cet appareillage est celui de l’exploration auto- 
matique. La résolution du problème par ces machines cousiste en 


la recherche automatique « rapide » de la commande optimale w qui 


maximise la fonction } (u) sur tout intervalle Af. II en résulte le 
« tracé » de la trajectoire optimale MM; et la définition simultanée 
de sa distance r du point 21). Cette procédure s'accompagne de la 
recherche automatique « lente » des va- 
leurs °° minimisant la fonction r. 

Pour les systèmes à objets linéai- 
res il existe des méthodes permettant 
d'obtenir les valeurs 4° par itéra 
tion [2.391]. 

3. Problème de la commande en 
temps minimal à domaine P finiàn 
dimensions fixé dans l’espace de phase 
x et à temps Ÿ non fixé d'avance. 

On demande de réaliser une com- 
mande telle que le point représenta- 

Fig. 2.19. tif x se déplace de sa position initia- 

le donnée z® en un point æ(T) d'un 

certain domaine donné P à n dimensions de l’espace de phase en 

un temps minimal 7. Ni le point xT) ni le temps 7 ne sont fixés 
d'avance. 

Pour résoudre ce problème il faut connaître les 2 valeurs initiales 
V9 (Gi = 1,...,n) du vecteur +, puisque des 2n conditions initiales 
des systèmes d’équations principal et adjoint les nr valeurs des coor- 
données æ{%, ..., x® sont données. Par conséquent, il reste à ajou- 
ter les n conditions aux limites. Ce sont ce qu'on appelle les condi- 
tions de transversalité imposées aux coordonnées du vecteur % au 
point final 2) de la trajectoire: : 

Pour obtenir les conditions de transversalité, considérons l’isosur- 
face T — const dans l’espace de phase (fig. 2.15). Convenons de 
donner ce nom au lieu géométrique des points de l'espace de phase 
qu'on peut atteindre en un temps Ÿ à partir du point initial x® 
avec la commande optimale u*. Par exemple, en un temps T; on 
peut arriver du point x aux points de l’isosurface 7,, en un temps 
T; >> T; aux points de l’isosurface T2, etc. On peut démontrer que 
ces isosurfaces sont convexes. L’isosurface T> de la figure 2.15 ne 
coupe pas la surface délimitant le domaine P de l'espace de phase. 
Cela signifie que le temps 7: est insuffisant pour atteindre le domai- 
ne P. En augmentant T on obtient de nouvelles isosurfaces englobant 
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celles à 7 moindre. En poursuivant ce processus de création de nouvel- 
les isosurfaces 7? — const qui englobent Les points de l’espace de phase 
toujours de plus en plus éloignés du point initial, on aboutit finale- 
rent (si le problème a une solution) à l”° isosurface T = T; tangente 
à la surface délimitant le domaine P. Soit x{T) le point de tangence: 
C'est précisément le point final de la trajectoire optimale recherchée, 
matérialisée sur la figure 2.15 par un trait continu. En effet, dans 
les conditions d’une commande optimale, le point 47) peut être 
atteint en un temps 7 = T3. Un autre point M du domaine P ne 
peut être atteint qu’en un temps T, > T3, alors la trajectoire qui 
réunit 2® au point M, par exemple, ne sera pas optimale. 
Soit l'équation de la surface délimitant le domaine P 


Dites EN = 0, (2.269) 

où æ est la fonction dérivable par rapport à tous les paramètres x; 
= '1, , h). 

La construction de la figure 2.15 montre que la surface qui déli- 

mite le domaine ?, si elle vérifie certaines conditions, et l’isosurface 


T = T; ont au point «1 un vecteur normal commun À. 


On peut prendre alors comme normale À le gradient ®, c’est-à-dire 
le vecteur 


A=gradp= (7%, ..., -) (2.270) 


0Zn 
Convenons que la surface ® — 0 est privée de points singuliers 


où tous les deviennent simultanément nuls. Le vecteur grad @ 


est alors défini pour tout point de la surface (2.269). 

La figure 2.15 montre également que la commande optimale 
intervenant dans le « dernier » intervalle de temps infiniment petit 
T — Af<t<T, où At +0, consiste à déplacer le point représen- 
tatif le plus vite possible de l’isosurface 7; — At — const à l’isosur- 
face T3 — const. A cet effet il faut assurer une valeur maximale de 
la projection du vecteur _ sur la direction du vecteur À. Par consé- 
quent, on est dans le cas où la direction du vecteur 1 (7) coïncide 
avec celle de À et on peut poser 


Ô ô 
V(T)=gradp= (5e, ., al (2.271) 
d’où l'on tire 
Ÿ (7) = + (ë —_ 4 +3 n). (2.272) 


Les conditions (2.271) sont les conditions de transversalité. 
Le temps 7 n'étant pas fixé, Les valeurs 14”, . . ., 1% et la grandeur 
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T, inconnues d'avance, sont les n + 1 inconnues qui nécessitent 
pour leur définition 7 + 1 conditions. Ces conditions sont données 
par z + 1 relations (2.269) et (2.272). En effet, si nous nous imposons 
les valeurs 4f° et 7, Les coordonnées x; (T) et 1; (T) seront les fonc- 
tions de ces nr + 1 inconnues. En portant ces fonctions dans les 
n + 1 relations (2.269) et (2.272) nous pouvons nous attendre que 
les n + 1 équations obtrnues aux nr + 1 inconnues W{° et T' aient 
une solution. Bien entendu, les difficultés de la résolution du pro- 
blème augmentent par rapport aux cas précédents, par suite de la 
complexité de définition des conditions aux limites. Si le domaine 
P se contracte en un point, nous sommes ramenés au problème 
précédent. Dans ce cas les conditions de transversalité perdent leur 
sens, mais, en revanche, on voit apparaître les coordonnées du point 
final de la trajectoire, donc le nombre total d'équations définissant 
les valeurs inconnues 4{f° devient de nouveau suffisant. 

Les conditions du problème peuvent être généralisées si au lieu 


du point initial fixé z‘° on considère un certain domaine initial P, 
des points de l’espace de phase d'où peut partir le point représentatif. 
Dans ce cas les conditions de transversalité analogues à celles décri- 
tes plus haut sont imposées également à la valeur initiale du vecteur 


w. Pour plus de détails nous adressons le lecteur à la monographie 
de L. Pontriaguine et coll. [2.21] qui donne une démonstration 
rigoureuse et générale du principe du maximum compte tenu des 
conditions de transversalité. 

4. Problème de réalisation d'une commande en temps minimal 
à domaine fini fixé à s dimensions (s << n). 

Dans ce cas, plus général que le précédent, le point final 21 
de la trajectoire doit reposer sur la variété M, de dimension s, 1 < 
<< s<< n, les coordonnées des points x appartenant à M7, étant don- 
nées par le système d'équations 


Dit st) =0 (ee 1,:.sn—-sx (2:77) 


Ainsi, deux équations du type (2.273) définissent dans un espace 
tridimensionnel une variété unidimensionnelle A7 ,, c’est-à-dire une 
certaine ligne. 

Le vecteur g normal à la variété M, peut être donné sous la forme 
suivante : 

B=n—s 


ne 2 À grad ps(x), (2.274) 


où x vérifie les équations (2.273) et À4 sont certains nombres. De plus, 
nous considérons qu’en aucun point de la variété HW, aucun des 


— 


vecteurs grad 4 (x) ne devient nul. 
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Il est facile de vérifier que le vecteur g est orthogonal à tout 
vecteur infiniment petit ôx appartenant à la variété M, et issu du 
point x. En effet, le vecteur êx repose sur toute surface mg (x) = 0 
(2.273) et, par conséquent, il est orthogonal à tout grad 4 (x). 
Le produit scalaire ci-dessous est égal à zéro 


P=n-s 


c'est-à-dire les vecteurs g et Ôx sont orthogonaux. 
Supposons d’abord que le temps n’est pas présent explicitement 
dans les équations de l'objet, on a 


EF (x, à), (2.276) 


où x est le vecteur à n dimensions et x le vecteur à r dimensions. 
La commande w cherchée doit minimiser l'intégrale 


T T 
Q = | GG, wdt— | fo (@ u) dt = 20 (T). (2.277) 
(1) 0 


Le temps 7 peut ne pas être fixé. Dans un espace à nr dimensions 
du vecteur x on peut imaginer des isosurfaces S, — const, où 


Î 
Se À G (x, u*)dt, (2.278) 
Ü 


et u* est une commande optimale. Les isosurfaces de ce type pour 
le cas particulier, où G — 1 et le temps Ÿ nécessaire est minimal, 
sont montrées sur la figure 2.15. Evidemment on peut construire de 
telles isosurfaces pour un cas plus général lorsque G n'est pas égal 


à 1. Le vecteur w est un gradient à l’isosurface S, = const. Il en est 

So. TR a oS à 
ainsi parce que le vecteur 1) aux coordonnées (— or est le gradient 
à l’'isosurface $ — const, ce qui se déduit aisément ‘de (2.210). Alors, 
en comptant le temps à rebours, nous pouvons établir l'identité 
des isosurfaces S$ — const de ce nouveau problème aux isosurfaces 
S, — const [cf. (2.278)]. Les deux formules ne différant que par le 
signe, on a donc 


d = grad S, (2.279) 
(sans le signe moins, comme il en était dans la formule pour S). 


Imaginons, comme dans le cas précédent, une famille d'isosurfa- 
ces S, en extension associées à des valeurs de £{ toujours plus grandes. 
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Si, pour une faible valeur de f, la surface correspondante n’a pas 
encore de points communs avec la variété M,, avec l'augmentation 
de # il arrivera un instant #, (sile problème admet une solution) où 
l'isosurface S, — const aura au moins un point commun avec la 
variété M, (on admet que de tels points n'existaient pas pour { € #;). 
Comme la tangence de l’isosurface et de la variété entraîne la coli. 


nearité de leurs vecteurs normaux 4 et g, on tombe sur la condition 
de transversalité sous la forme *) 


n—s 


Ve ke grad pa [æ (&)]. (2.280) 


Autrement dit, le point final x (ti) vérifiant les conditions (2. 273) 
doit donner lieu à des nombres À, non nuls simultanément, véri- 
fiant l'égalité (2.280). 

L'égalité vectorielle (2.280) est équivalente à n égalités scalaires. 
Si l’on y ajoute encore n — s conditions (2.273), on obtient en tout 
2n — s équations aux 2n — s inconnues, c'est-à-dire n —s cons- 
tantes À4 et n inconnues 1; (fi). 

Si dans les équations (2.276) t est présent sous une forme explicite, 
la substitution x,+1 — t ramène le problème au cas précédent à cette 
différence que les constructions se font dans un espace à n + 1 
dimensions. De plus, dans ce nouvel espace, la variété M ,441, équi- 


valente à l’ancienne variété M, de l’espace x à n dimensions, sera un 
cylindre ayant pour base la variété M, de l’ancien espace et dont les 
génératrices sont des droites parallèles à l’axe des coordonnées 
Zn+1 = t. La forme des conditions de transversalité est ici la même 
que précédemment. Ayant fixé à TZ le temps de passage du point 
initial à la variété M,, on ajoute aux équations de la variété une 


équation de plus 
Pn-.s+1 (x) — Ln+41 — T —= 0 (2.281) 


qui doit être utilisee pour déterminer les conditions de transversalité. 

Donnons à titre d'illustration de ce qui vient d'être dit un exem- 
ple de l’application du principe du maximum à un problème à extré- 
mité libre de la trajectoire et à temps 7 fixé [2.17]. Proposons-nous 
de trouver une commande qui minimise l'intégrale 


T 
Q=+ | (x? + u?) dé, (2.282) 


0 


*) La linéarité des équations adjointes lait qu'il suifit de définir le vecteur 
+ à un facteur constant près. En multipliant alors les conditions finales par un 


facteur constant quelconque on obtient une nouvelle valeur de 1 (t) qui constitue 
également une solution. 
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l’objet étant décrit par l’équation du premier ordre suivante: 


= art. (2.283) 


Soit la valeur (x);=, = x'®. Supposons également que la commande u 
ne subisse aucune restriction supplémentaire. 
Introduisons les variables 


x (t)-=x(t), 


1 
a 2 DD 
Bo (0) = | (+ ut) dé, [ FE 
2 


avec, de plus, (x5)3=0 = 0. Le système d'équations s'écrit alors 


do 1 1 .. 
nm “zut au = fo 
= _ | (2.285) 
= AM Hu ji 


do dx 1 


dt Hi d 


Composons maintenant la fonction # d’après l'expression (2.228): 
À — Ÿo n 


= V3 +u)+p(—añt+u). (2.286) 


Ecrivons les équations adjointes pour 1, et Ÿ conformément 
à (2.227) et (2.231). On a 


do 

2%0 _p 

dt j 

Ne Rd de. 
: 2) Vi me Vo de Wa me Vo: + Ÿi 


D'après (2.252) les valeurs finales Ÿ; sont 


Vo (T)}= —1, 
Vo ( ) | (2.288) 
V4 (7) —= 0. 
Les conditions initiales imposées à F 
#0, 2.289 
a — 30), ( . ) 


La commande u à choisir à chaque instant doit être telle qu'elle 
maximise À. En vertu des premières conditions de (2.287) et (2.288) 
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Po ( = —1 = const. (2.290) 
Alors (2.286) donne 


= or + Pau. (2.291) 


En égalant la dérivée Æ à zéro on obtient la valeur optimale 
— Ÿi. (2.292) 


Portons cette valeur dans les équations pour x, et TA (la fonction xo 


ne faisant pas partie de ces équations ne présente aucun intérêt pour 
nous),.il vient 


(2.293) 
me = a Eu DE 


D’après (2.288) et (2.289) les conditions aux limites de ce système 
sont 


de, — 
an = am ts | 


2 (0) = 2%, | (2.294) 


ÿ1 (7) — 0. 


Les équations linéaires (2.293) se prêtent aisément à l'intégra- 
tion. On a après intégration 


ed — pt pt 
1 (2) ne Cie a Ce 3 | (2.295) 
Ya (8) = Die? = Die?” 
où 
p=Va+i (2.296) 
est la racine de l'équation caractéristique. 
Les conditions (2.294) prennent la forme 
am —C,+Cs, 1 
ne _—. (2.297) 
O — 14 (7) = DiefT + D,0 PT, ) 


L'expression (2.293) pour f — O0 entraîne 


— 


CE], = Cap —Cop= — a (0) +1 (0) = —a2® + Di+ Da, 


ÊSR nn Peel = as (0) + 21 (0) = a (Di + De) + a 0. 
(2.298) 
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La résolution simultanée de (2.298) et de (2.297) permet de définir 
les constantes C,, C»>, D,, D: Nous tirons notamment 
x\0) x{0) e2?T 


D Gogo D —Gryrwroer (299) 


ce qui nous donne avec (2.292) et (2.295) 


xt0) [ePi._e2rt.e-PT] 


deb Dee oser (2.300) 


L'expression (2.300) donne la loi de la commande optimale en fonc- 
tion du temps. Ayant trouvé x; (#) et éliminé le temps £ de u* (t) 
et de x, (i), on aboutit à u* — u* (x:). 

Le principe du maximum s'étend naturellement aux systèmes 
continus à état discret à objets linéaires [2.17]. En effet, pour ces 
objets, même dans le cas des écarts importants, les équations des 
écarts sont également linéaires. Par conséquent, les raisonnements 
qui ont servi à la discussion du principe du maximum dans le cas 
des systèmes continus peuvent être repris, avec quelques modifica- 
tions négligeables, pour l'étude des systèmes continus à état dis- 
cret à objets linéaires. Toutefois, dans le cas général des systèmes 
continus à état discret non linéaires, une telle démonstration est 
impossible. En effet, les intervalles de temps entre les échantillons 
ainsi que le nombre total des valeurs discrètes sont des grandeurs 
finies. L'influence de la variation finale d’un échantillon w (k), ana- 
logue de Ia « petite » variation pour le cas considéré, sur le but 
final, c’est-à-dire sur la valeur de ©, est également une valeur finie 
et non pas infiniment petite comme dans le cas des systèmes continus. 
Maïs alors tout l’édifice des raisonnements qui précèdent s'effondre 
du fait qu'il est désormais impossible de parler de petits écarts entre 


la trajectoire en variation x et La trajectoire optimale x*. Et ce n’est 
pas tout; on peut même imaginer un exemple contradictoire pour 
lequel, dans le cas d’une commande optimale, le principe du maxi- 
mum, formulé comme ci-dessus, n'est plus valable. 

Ces derniers temps il a été démontré (cf. [2.43l} que pour une 
certaine classe de systèmes continus à état discret non linéaires le 
principe du maximum a lieu. Dans le cas général ces systèmes répon- 
dent à une formulation bien plus «faible » des conditions nécessaires 
d'optimalité. Pour obtenir cette formulation « faible » il faut traiter 
une variation Ôu (x) de la valeur discrète u* (k) telle que son influen- 


ce sur la valeur finale de Q = 21) soit infiniment petite. Il est clair 
qu’en général ce n’est possible que lorsque la grandeur Ôu (4) est 
elle-même infiniment petite. On peut reprendre alors les raisonne- 
ments ci-dessus et aboutir à un résultat d'aspect analogue. Or l'inté- 
rêt du résultat obtenu ne sera que local; il n'est vrai que pour les 


variations suffisamment faibles ôu (%) et A des grandeurs u* (k) 
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et H. Dans ce cas on peut seulement démontrer que, si la comman- 


de u est optimale, elle rend stationnaire la grandeur À. Toute valeur 
stationnaire (maximum local, minimum local, valeur stationnaire 
propre) fait penser qu’on a là une commande optimale, maïs on ignore 
toujours laquelle de ces valeurs constitue précisément la commande. 
On comprend aisement pourquoi dans sa formulation « faible » le 
principe du maximum présente peu d'intérêt. 

Il nous a été impossible dans le cadre d’un chapitre de passer 
en revue toutes les méthodes mathématiques proposées et appliquées 
avec succès à la solution des problèmes de la théorie des systèmes 
optimaux. Citons, par exemple, les travaux de N. Krassovski [2.22, 
2.23] qui ont à leur base les recherches de M. Kreine [2.24] relatives 
à l’analyse fonctionnelle, les ouvrages du théoricien polonais 
R. Kulikowski [2.25, 2.26] consacrés aussi à l’analyse fonctionnelle. 
Nous ne nous sommes pas attardés non plus sur ce qu'on appelle 
« régimes glissants ». Ces régimes donnent lieu à un nombre infini- 


ment grand de sauts de la commande x (t)}. L'existence d’une com- 
mande optimale est traitée dans ce cas pour certaines classes de 
problèmes par F. Kirillova [2.27]. Pour les problèmes de ce type le 
principe du maximum a besoin d’être généralisé, ce qui a été réalisé 
par R. Gamkrélidzé [2.28]. Une autre approche de ces problèmes 
est proposée par V. Krotov 12.291. 


CHAPITRE III 


SYSTÈMES OPTIMAUX À INFORMATION COMPLETE 
SUR L'OBJET COMMANDÉ 


$ 1. Problème de commande en temps minimal ; 
méthode de l'espace de phase 


La théorie des systèmes à information complète sur l'objet 
commandé se développait d’abord comme une théorie de commande 
en temps minimal. Les systèmes utilisant le principe de commande 
en temps minimal sont devenus l’objet d'étude grâce à leur intérêt 
pratique. Déjà en 1935 D. Marianovski et D. Svetcharnik ont pris 
un brevet [3.1] pour un système de déplacement de cylindres de 
laminoir où été utilisée une réaction quadratique qui permettait 
d'obtenir une vitesse maximale. Plus tard la maison « Leeds and 
Northrup » (Etats-Unis) a appliqué un principe analogue à la cons- 
truction du potentiomètre automatique « Speedomax ». En 1949 
l'auteur du présent ouvrage a montré dans [3.2] que pour un objet 
linéaire de second ordre composé de deux circuits intégrateurs cou- 
plés en série le processus optimal d’asservissement comporte deux 
intervalles. Pour le premier la commande uw, obéissant à la condition 


UI< UV, (3.1) 


est maintenue à l'un de ses niveaux admissibles +77 et pour le 
deuxième, à l’autre niveau admissible. Dans cet ouvrage l’auteur 
a analysé les trajectoires optimales dans un plan de phase. 

Dans l'ouvrage (3.31 publié en 1951, l'auteur a étudié, pour un 
objet linéaire de second ordre, les trajectoires optimales dans le 
plan de phase pour des conditions initiales diftérentes ; on y trouve 
également la comparaison des résultats théoriques et pratiques de 
simulation. 

L'ouvrage [3.4] publié en 1952 généralise la formulation du 
problème d’asservissement aux systèmes d’ordre #7 pour un même 
type des conditions initiales ; son auteur présume que dans ce cas-là 
aussi les modules des grandeurs soumises aux restrictions doivent 
être maintenus à un niveau maximal admissible. Les processus 
décrits dans cet ouvrage ne sont pas tous des processus strictement 
optimaux, mais ils en sont proches. Ce même ouvrage donne l’énoncé 
du problème à plusieurs contraintes et émet l’hypothèse sur le type 
du processus optimal. hypothèse qui s’est avérée juste pour beaucoup 
d’autres problèmes. 
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Toute une série de travaux apparus simultanément avaient pour 
objet les différents systèmes optimaux de second ordre ou les prin- 
cipes particuliers dont l'application permettait d'améliorer les 
caractéristiques dynamiques du système sans le rendre encore opti- 
mal [3.25]. 

En 1953, dans [3.5] fut introduite la notion générale de processus 
optimal se déroulant dans un espace de phase de dimension n pour 
des conditions initiales quelconques et n'importe quelles actions 
extérieures admissibles. Dans cet ouvrage fut énoncé et démontré 
le théorème des n intervalles. Ce théorème a permis d'élaborer une 
méthode de synthèse d’une classe des systèmes optimaux d'ordre nr 
(cf. 13.11]). Dans l’exposé du présent paragraphe l’auteur s'est basé 
sur les ouvrages [3.2, 3.9, 3.11]. 

Les résultats théoriques pour les systèmes de second ordre à raci- 
nes conjuguées complexes ont été obtenus par le mathématicien 
américain D. W. Bushaw en 1953 [3.15, 3.17, 3.235]. 

Depuis 1954 la publication des ouvrages consacrés à la théorie 
des systèmes optimaux de commande en temps minimal s’est consi- 
dérablement accrue [3.6-3.8, 3.12-3.14, 3.16, 3.18-3.24]. 

Donnons un exposé détaillé du problème de commande en temps 
minimal. 

Soit l’objet B à commande continue dans un système à réaction 
caractérisé dans le cas général par l’équation vectorielle de la 
trajectoire 


= ( , U, t), (5.2) 


où x est le vecteur de dimension n et le vecteur x a r coordonnées. 
La commande u est restreinte par la condition 


uEQ(u), (3.3) 
où  (u) est un certain domaine fermé admissible. L'expression 
(3.1) est un exemple concret illustrant la contrainte (3.3). Il importe 
de noter que l'extrémité du vecteur w peut reposer non seulement 


à l’intérieur du domaine Q (4) mais aussi sur sa frontière. 
Nous allons poser que le processus idéal x (4) vérifie les égalités 


af) =at(t) (i=:1, 2, ..., n). (3.4) 


Ici x; () sont les coordonnées de l’objet et zx* (t) les fonctions 
du temps données que nous allons considérer comme les coordonnées 
du vecteur z* : 


Lit, de du, 4%). (3.5) 


Les fonctions x* (?) doivent également satisfaire à certaines contrain- 
tes. Pour expliquer leur sens, examinons l’espace de phase de dimen- 
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sion n du vecteur x (fig. 3.1.). Si l’état de l'objet B variait exacte- 
ment d’après les conditions idéales (3.4), nous aurions l'égalité 


x = x", (3.6) 


et la trajectoire de phase qui est l’hodographe du vecteur x = x* 
représenterait, par exemple, Îa trajectoire N*N*N7. Soit N* 
la position du point représentatif sur cette trajectoire à l'instant 
courant {> 0 et NS la position de 
ce point à 


Tn 


à l'instant initial & = 0. 
Pourtant, l’état réel de l’objet à 
l'instant £ — O0 est défini par le 
point représentatif N, qui ne coïn- No 
cide pas avec NX. L'état courant 

de l'objet à l’instant t => 0 est don- 

né par le point et la trajectoire | 
de phase de l’objet est la courbe 7%, 
NoNNr. Le but du système de régu- 
lation automatique consiste à faire Fig. 3.1. 

coïncider en un temps minimal 

l'état réel N avec l’état imposé V*. Supposons que les points W 
et V* se confondent à l'instant & — T en Nr. Supposons également 
qu'après cet instant, quand é > 7, on peut choisir une commande 


u (t) telle qu’elle vérifie l'égalité (3.6). Toutefois, la marge de com- 
mande étant restreinte, les trajectoires x*(t) ne sont pas toutes réa- 


lisables. Appelons admissibles les trajectoires réalisables x — 2* (. 
Il est clair que ces trajectoires sont les solutions de l'équation (3.2) 
sous la condition (3.3). Cette condition est précisément la contrainte 
à imposer aux trajectoires x* (?}. Demandons que le vecteur uw se 
trouve à l’intérieur *) du domaine (2 (u). 

Le processus transitoire est celui de passage de l'état initial 
No à l’état imposé N,. La durée de ce processus est égale à F. Le 
système s'appelle optimal par rapport à la rapidité des processus 
transitoires si ces derniers donnent lieu à Îa condition 


T = min, (3.7) 


quelles que soient les conditions initiales et la fonction z* (t) appar- 
tenant à la classe des fonctions admissibles ou bien à une sous-classe 
définie de cette classe. Dans ce dernier cas le système est dit en temps 
minimal pour la sous-classe indiquée des fonctions admissibles x* (4). 


Le processus x (t) et la commande x (1) respective d’un tel système 
sont dits optimaux. 


*) A l’intérieur, mais non pas sur la frontière, car le point N doit pouvoir 
« rattraper ». le point N* quelles que soient les conditions initiales. 
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Comme on le voit de la figure 3.1, le problème de recherche d'un 
processus optimal x (f} et d’une commande optimale w (f) peut être 
interprété comme un problème relatif à la rencontre de deux points 
N et N* dans un espace de phase en temps minimal. : 

Il est souvent commode de remplacer l’espace de phase de x par 
un espace de phase de même dimension mais associé à l’erreur 


= 7 (AS) 


de coordonnées &; — 2ÿ — x; (i = 1, 2, ..., n). A la fin du proces- 
sus transitoire Le vecteur de l'erreur devient nul. Par conséquent 
dans le nouvel espace le point représentatif du système, en partant 

d’une certaine position initiale, doit, en se 


n| ’ déplaçant avec la plus grande vitesse admis- 
| sible, rejoindre l’origine des coordonnées. 

Le nouvel espace de phase s’obtient à par- 

| tir de l’ancien si l’on reporte l’origine des 

coordonnées au point N* en mouvement et cons- 


re tituant l'extrémité du vecteur x* (fig. 3.1). 

D — Remplaçons dans le nouvel espace de phase 
les notations €; (à == 1, 2, ..., n) par les 
lettres x; qui désignent désormais les coor- 
données de l'erreur (fig. 3.2). Le problème de 
transfert du point représentatif du système 
d’une position initiale NW, à l’origine des 
coordonnées © en un temps minimal ne diffère maintenant plus du 
problème de commande en temps minimal traité dans le chapitre 
précédent. 

Pourquoi les points représentatifs N et N* de la figure 3.1 ne 
peuvent-ils pas se rejoindre dans un laps de temps aussi petit que 
l’on veut? Ceci est impossible par suite des contraintes existant dans 
n'importe quel système réel, comme par exemple les contraintes (3.3). 
Ces contraintes rendent impossible le déplacement du point repré- 


sentatif x dans l’espace de phase à des vitesses infiniment grandes. 

Il arrive parfois que les contraintes sont imposées non seulement 
aux commandes w;(f) mais encore aux coordonnées x;(t) ou aux fonc- 
tions de ces coordonnées. Parfois Le dernier type des contraintes peut 
amener à une contrainte appliquée à une commande non pas dans le 
schéma réel mais dans un certain autre schéma équivalent. Considé- 
rons à titre d'illustration l'exemple suivant, 

Soit l'équation de la trajectoire de l’objet 


To 


Fig. 3.2. 


dx d , 
bye +de = u (t), CA] 


où 0, — const. C’est, par exemple, l'équation du mouvement d’un 


D! 


servomoteur à courant continu lorsque la grandeur d'entrée est la 
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tension recueillie sur l’induit et celle de sortie, l'angle de rotation 
de L'arbre. Supposons que la contrainte est imposée non pas à w (#) 

— Re. d? SE 
mais à la dérivée seconde Er 
dx 
de? 


Dans l'exemple du servomoteur à courant continu la dérivée seconde 
est proportionnelle au courant de l'induit si le couple résistant est 
négligeable. Nous sommes alors dans le cas où le système (3.9) 
peut être remplacé par un système équivalent régi non par l'égalité 
(3.9) mais seulement par la contrainte (3.10) 


<M. (3.10) 


d? 
= v(t), (3.11) 
où v (t) est la commande équivalente, ou la fonction de commande, 
qui vérifie [a condition 
Iu(I< M. (3.12) 


Après avoir trouvé le processus optimal z,,t (t) pour le système 
équivalent (3.11) on peut porter l'expression obtenue dans (3.9) 
et trouver la commande optimale réelle 


dxropt dropt 
U* (8) = bon + ba (3.13) 


Notons que dans ce cas le processus optimal se définit non par 
l'équation (3.9) de l’objet mais seulement par la contrainte (3.10). 
Toutefois, pour obtenir la commande optimale réelle u* (?) il faut 
connaître l'équation (3.9) de l’objet. 

Un cas plus général des contraintes imposées aux coordonnées 
de l’objet et à la commande a été traité par R. Gamkrélidzé dans 
[2.18] (cf. également [2.45, 2.46)). 

Rétrécissons maintenant la formulation du problème. Soit une 
seule commande w (t) et soit l’objet à coordonnée de sortie x soumis 
à la contrainte du type 

an dn-ir 


Go ee + er + se +GnT < M, (3.14) 


où a, — const et as >> 0. Si dans un cas particulier l’objet est défini 
par l'équation 


dn an-1l 
20e + per de. +anz = u(t), (3.15) 
la contrainte (3.14) se ramène à la condition 
ju OI AM. (3.16) 


_. Pourtant, dans le cas plus général, comme nous l’avons dit plus 
haut, fe premier membre de l'équation réelle de l’objet peut ne pas 


$—0966 
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coïncider avec l'expression (3.14). Dans tous ces cas seule la condition 
(3.14 suffit pour la construction du processus optimal. 
Limitons notre exploration au cas où les racines de l’équation 


ap" +ap1+ ... Lan=0 (3.17) 


sont réelles et non positives. Autrement dit, les racines du (3.17) 
ne peuvent être que négatives et réelles ou nulles. Disons alors que 
l'équation (3.17) est caractéristique. Posons 


an dn—1 
Go pe + Mi + c.. “FGnT = D. (3.18) 
La contrainte (3.14) peut alors être mise sous la forme 
[ul HW. (3.10) 


Dans le cas particulier d’une équation de l’objet du type (3.15), 
les expressions de v (f) et de uw (1) coïncident. Toutefois, dans le cas 
plus général, comme nous l’avons dit plus haut, elles peuvent être 
différentes. | | 

Pour les conditions indiquées le théorème des » intervalles est 
vrai. Voici son énoncé. 

Le processus optimal x (?) se répartit en » intervalles ; dans cha- 
cun de ces intervalles il est décrit par l'équation 


L 2 


an dn-1 
D do + Gt + .. ant = OM, (3.20) 


‘où le nombre o est constant sur chaque intervalle et 
o = +1. (3.21) 


De plus, dans les intervalles adjacents, les signes de © alternent. 

Si, dans un cas particulier, u = v, le théorème des nr intervalles 
peut être interprété comme suit: le système subit des commandes 
optimales w (t) de type « en avant à toute vitesse » puis « en arrière 
à toute vitesse », au total z fois de suite. 

Ce théorème a été démontré en 1953 dans [3.5] par une méthode 
élémentaire et presque sans aucun calcul. Pour mieux comprendre le 
principe de la démonstration examinons d’abord le cas particulier 
le plus simple traité en 1949 dans 13.2]. 

Soit, dans le cas particulier, l'équation de l’objet 


2 
a LE = u, (3.22) 


la grandeur uw étant soumise à la contrainte (3.16). Soient, ensuite, 
les conditions initiales de la forme 


(x1)1-0 — 0, (5) 0 (3.23) 


{0 
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Supposons qu'il faut faire passer l’objet en un temps minimal 
T min à l’état | 
Ti = Lyj = CONSt, ie (3.24) 


Il se trouve qu’à cet effet il faut d’abord « accélérer » à une vites- 
se maximale avec u = M. Dans ces conditions, d’après (3.22), la 


fonction Les varie dans le temps d'après la loi linéaire 
2 a ge À M a 2 M (3.25) 
dt — dd ay a& | 
Ô ) 
La courbe 7 de la figure 3.3, a est celle de la vitesse 3 du pro- 


cessus optimal. Au milieu de la trajectoire, lorsque { — _ , l'«accé- 


lération » doit devenir « décélération » maximale, c'est-à-dire pen- 
dant le deuxième intervalle il faut 
maintenir w — —/. Ainsi la cour- 
: d : 

be optimale — a une forme «trian- 
gulaire». La distance parcourue x: 
étant définie par la formule 

d 

T1 
% = À A di, (3.26) 
û 


le processus optimal prend pour 
LT Tin la forme de deux segments 


de parabole (fig. 3.8,b) et pour —j—— 
t > Tin celle d’une droite horizon-  #/ | Ty et Du 
| t 


lale æ1 = x; — const. 

Montrons que le processus de la | 
figure 3.3, b est optimal. Consta- 
tons en premier lieu que l’aire li- Fig. 3.3. 
mitée par l'axe des abscisses et 
2 doit être, dans 
le problème considéré, une grandeur constante égale à x,,;. En effet, 
si la durée du processus transitoire est T et si à sa fin l'égalité x, — 
— Z, est vraie, (3.26) entraîne 

T 


d. 
À PL dt = ryg. (3.27) 
( 


une courbe quelconque du processus transitoire 


Cette condition doit être vérifiée en particulier pour la courbe 
« triangulaire » / de la figure 3.3,a. 


8* 
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| 14 | : dx 
Considérons maintenant une autre courbe PR dans notre exem- 


ple la courbe € différente de la courbe « triangulaire » Z. En vertu 
de la contrainte (3.16) et de l'équation (3.22) on a 


d? M TE 
ES = .. <-7, = Const, (4.28) 
Alors, pour 
T 
0< 1< D 


dans le premier intervalle la courbe £ peut soit épouser la courbe 1, 
soit passer au-dessous, mais ne peut pas se trouver au-dessus de cette 
courbe. En effet, d'après (3.28) la pente de la courbe 2 est inférieure 
où égale à celle de la courbe 7, alors que les valeurs initiales de ces 
courbes sont les mêmes. On en déduit que l’ordonnée du point #’ 
Tmin 
2 - 
est inférieure à celle du point P et l'intégrale | = dt d’une courbe ? 


0 
quelconque est inférieure à celle de Ia courbe Z. Or, x; étant 
la même, les intégrales (3.27) des deux courbes doivent être néces- 


sairement égales. Par conséquent, pour {> Lie la courbe 2 ne peut 


pas passer comme indiqué en trait interrompu à de la figure 3.3,a. Elle 
coupe nécessairement la courbe 7 en un certain point À. La courbe & ne 
peut pas non plus couper une deuxième fois la courbe Z car la pente 
de la courbe £ est inférieure ou égale en valeur absolue à celle de ia 
courbe 7. If en résulte que la courbe 2 rencontre l’axe des abscisses 
pour un { = T plus grand que Tu;n. On en déduit que dans le cas 
d’une courbe quelconque admissible, différente de 7, la durée T 
du processus transitoire est plus grande que Tin. Cela signifie 
précisément que la courbe Z correspond bien au processus optimal. 
La durée Tin de ce processus se définit aisément à partir de la con- 
dition (3.27). Cette condition pour la courbe 7 traduit le fait que l’aire 
du triangle qu’elle forme, de base OS et de hauteur PQ, est égale 
à Lif: 


M Toi 
= PQ-OS=+ (= min | Tdi (3.29) 

Il s'ensuit que 
Tam=2)/ EK. (3.30) 


On voit de cette formule que la durée Ti, d’un processus transi- 
toire optimal est d’autant plus petite que la valeur maximale admis- 
sible A7 de la commande est plus grande. Pourtant la valeur de 
étant finie, celle de Tnin l’est également. 
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Dans le cas général, quelles que soient les conditions initiales 
pour x, la consigne admissible x* et l’ordre n de l’équation des con- 
traintes (3.18) {si v — uw, cette dernière se ramène à l'équation de 
l’objet (3.15)], d’après le théorème des n intervalles, la fonction 
de commande v (t) a la forme de la courbe représentée sur la figure 
3.4. Dans notre exemple, dans le premier et le dernier intervalle la 
grandeur © est égale à +1, c'est-à-dire 
v = +}M. Tout le processus de varia- 
tion de v (t) est composé de n interval- 
les, en général, de durées différentes ; 
par ailleurs, dans tout intervalle on a 
6 = const, tandis que dans les inter- 
valles adjacents Îles signes de © sont 
opposés. Cela signifie que La « marche 
en avant à toute vitesse» lorsque 
uv = +}M alterne avec la « marche en 
arrière à toute vitesse » quand v = —{f, 
etc. Il s’agit de choisir les signes de o et la durée des intervalles de 
façon qu’on rejoigne à partir de l'état initial donné un certain état 
final imposé, par exemple, l'origine des coordonnées (fig. 3.2). 
Le problème de la sélection de tous ces paramètres sera examiné 
dans ce qui suit. | 

Démontrons le théorème des n intervalles dans le cas particulier 
quand la contrainte (3.14) est de la forme 


dix 


M, (3.31) 


et l'équation (3.18) devient égalité 
CASE) (3.32) 


La relation entre x et v est celle qu'on aurait pour une chaîne 
composée de x circuits intégrateurs (fig. 3.5), v étant sa grandeur 


-2) 

y=zM): a TRE x 

EU RE 
Fig. 3.5. 


d'entrée et x sa grandeur de sortie. Appelons le schéma de la figure 3.5 
schéma équivalent. Il coïncide avec le schéma réel de l’objet quand 
l'équation de l'objet est (3.32), c'est-à-dire 

 —. (3.33) 


din 
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Il est alors évident que v — u. Toutefois, dans le cas général, 
v = u. Montrons que pour obtenir le processus optimal x (4), il faut 
fournir à l'entrée du schéma équivalent la grandeur v = oM, où 
o — +1, les signes de © alternent dans les intervalles adjacents et 
le nombre total des intervalles est nr. Supposons qu'un tel processus 
existe et que sa durée est T',. L’instant t — 7, donne lieu aux égali- 
tés 
mat, a — a ,,,, am an (3.34) 


où z%) et x *&) sont les dérivées d'ordre #. Considérons d’abord les 
courbes 201—1) et x*m—1) (fig. 3.6). 
D'après ce qui précède ces courbes se confondent pour ? > T4. 
La courbe 2t*-D (f) a la forme d’une droite brisée du fait qu'elle 
| matérialise la grandeur de sortie 
gin-1) du circuit intégrateur du schéma 
équivalent (fig. 3.5) à l'entrée 
z'{r-17) duquel est appliquée la grandeur 
D +M variant par sauts (cf. 
fig. 3.4). La droite brisée 2"-b 


x" j: : comporte des segments à pente po- 

| . … sitive +4 qui alternent avec des 

\ 2 7% 7 |! segments à pente négative —}M de 
même module. 

Fig. 3.6. Supposons qu'il existe une autre 


courbe zx, (4) ayant les mêmes con- 

ditions initiales que x () mais donnant la durée du processus tran- 

sitoire 7, moindre, donc 7, << T5. Nous allons montrer que l'existence 

d’une courbe z(#) ayant les propriétés indiquées et vérifiant la 
contrainte (3. 31) est impossiblr. 

Adjoignons à la courbe zx, (t) un segment de la courbe z* (4) 

dans l'intervalle 7% < t  T,. Dans ce qui suit nous allons entendre 


par courbe z1 (4) la courbe « prolongée », donnée dans l'intervalle 
0O<1t<T, On en tire 


20 (To) =2@ (7) (k—=0 1,..,, n—1). (3.35) 


La courbe 2®%—b ne peut pas couper plus d’ une fois chacun des 
segments de la ligne brisée z*-D, En effet, s’il n'en était pas ainsi, 
sa dérivée z2{® serait d’un module supérieur par rapport à 2° = 
— +M ; mais dans ces conditions La courbe Zi (?) serait inadmissible. 
Ensuite, la courbe 2{* ne peut pas couper ni le premier ni le der- 
nier des segments (dans l'intervalle 0 < t < T;) de la ligne brisée 
xD, car aux points extrêmes de ces segments les deux courbes 
se confondent ; dans le cas contraire la courbe x, (£) serait aussi inad- 
missible. Par conséquent, le nombre de points d'intersection des courbes 
xD et xD ne peut dépasser n — 2. 
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Considérons maintenant les courbes 2% (4) et 2-2 (4). Elles 
coïncident aux points { = 0 et & — T,, tandis que leurs dérivées, 
comme nous l'avons montré ci-dessus, n’ont pas plus de #r —2 
points d’intersection. On en déduit que les courbes 2%? et 292 
n’en ont pas plus de r — 3 à l’intérieur de l'intervalle 0 < t < To 
(on ne compte pas les points extrêmes de cet intervalle). ‘En effet. 
si deux courbes continues et dérivables se coupent en deux points 
quelconques aux instants #1 et £e, 4 << {, en un certain point inter- 
médiaire leurs dérivées doivent être égales entre elles pour 4 << {<< 2. 
Par conséquent, si les courbes 2%? et 2@-® avaient plus de z — 3 
points d’intersection, compte tenu de leur coïncidence aux extré- 
mités de l'intervalle, on aurait plus de r — { points d’intersection 
de ces courbes. Il s'ensuit que leurs dérivées 2-1 et xD se con- 
fondent en plus de nr — 2 points à l’intérieur de l'intervalle 0 
<ti< To; or, nous avons montré dans ce qui précède que ceci est 
impossible. Ainsi les courbes 2°*-# et x{*? ne se coupent pas plus 
qu’en z — 3 points à l’intérieur de l'intervalle 0 St < To. 

En raïisonnant d’une manière analogue on montre aisément que 
les courbes 27% et x®-% n’ont pas plus de r — 4 points d’intersec- 
tion à l’intérieur de l'intervalle 01 To, les courbes 27-# 
et 44179 pas plus de r — 5 points d’intersection, etc. En parcourant 
ainsi de gauche à droite les circuits du Le équivalent de la fi- 
gure 3.5 on aboutit enfin aux courbes 4 —— = a@) et ee =": 
Il est clair que ces courbes n'ont pas nr da un point d’intersection. 
On en déduit que les courbes x® et 2% n'ont aucun point d’intersec- 
tion à l'intérieur de l'intervalle 0 < #t & Ts. Maïs ceci signifie que 


4TQ To 


(To) = %0+ | n(dt) ire + rit (To), (8.36) 


cest-à-dire que l'égalité (3.35) est compromise, bien qu elle devait 
avoir lieu si le temps 7° de la courbe z4 (é) était inférieur au temps 
T, de la courbe x(#). Cette contradiction signifie qu'il ne peut exis- 


ter aucune courbe admissible a () avec T° << Ts. Par conséquent, 
la courbe x (£) est celle d’un processus optimal et la démonstration 
du théorème des n intervalles pour la contrainte (3.31) est achevée. 

Ces raisonnements sont aisément généralisés au cas de la contrain- 
te (3.14) lorsque les circuits du schéma équivalent sont soit intégra- 
teurs soit inertiels [3.5, 8.25] *). 

Le théorème des n intervalles ne donne pas à lui seul la règle de 
sélection du signe de © sur le premier intervalle ni de la durée des 
intervalles. Pourtant, ce théorème permet de réaliser la synthèse 


+) C'est précisément le cas de la contrainte imposée aux racines de l'équa- 
tion (3.17). 
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d'un schéma fonctionnel ou, en d’autres termes, la synthèse de l'nl- 
gorithme de l’organe À de commande optimal qui résout automatique- 
ment le problème (3. 111. Si l’on connaît la valeur de la fonction de 
commande v nécessaire à l'instant concerné, la valeur respective de 
la commande réelle uw s'obtient sans peine. Si l'objet est soumis 
à la contrainte de type (3.16), on a v = u. Mais si l'équation de l'objet 
et l'équation (3.18) de la contrainte ne coïncident pas, on a v #u; 
pourtant la relation entre u et vs’obtient sans difficulté. Par exemple, 
dans le cas de l'équation (3.19) et de la contrainte (3.10), avec 
(dx/dt);,=0 = 0, on a 


1 


u* (#) = bo (4) + b | vdt. (3.47) 
Û 


Le problème principal consiste donc à définir la fonction de com- 
mande v pour tout point de l’espace de phase x à l'instant t: 


v=v(x, t). (3.38) 


Pour trouver cette relation, considérons l’espace de phase des 
erreurs. En vertu du théorème des x intervalles la valeur de v en un 
point quelconque de [l’espace de phase 

Zn | y" g=+1 ne peut être autre que +M ou —M, 
c'est-à-dire si v — oM, on a o — +4 

ru ou & ——1{. Par conséquent, à chaque 

: * instant, à tout point ordinaire de l’espace 

de phase correspond soit o — +1, soit 


o — —1. Alors à chaque instant tout 
ie CNE à #2 l'espace de phase est partagé en deux 
va ju domaines caractérisés par les valeurs 
: Po d=-/ o = +1Âet o = . La figure 3.7 re- 


présente à titre d'exemple un espace de. 
phase tridimensionnel aux domaines 
o = +1 et &o — —1. Ces domaines sont 
séparés par l'hypersurface S de dimension nr — 1. Le but de la 
synthèse consiste précisément à décrire cette hypersurface en un 
instant quelconque. On appelle S hypersurface de commutation. 

Dans le cas général l’hypersurface S a une forme différente 
à des instants différents. Les hypersurfaces de ce type sont dites 
non stationnaires. C’est le cas où le temps est présent explicitement 
dans les équations de l'objet. Dans une classe plus restreinte, l'hy- 
persurface S est fixe, mais sa forme dépend des paramètres de la 
fonction de consigne 2 (D. Une telle hypersurface se nomme quasi 
stationnaire. 

Dans une classe encore plus restreinte, la forme de l’hypersurface 
S ne dépend pas du tout des paramètres de z* (é) ; on l’appelle alors 


Fig. 3.7. 
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stationnaire. Dans ce dernier cas que nous allons étudier en détail 
l'équation de l’erreur n’est pas assujettie aux paramètres de x* (6). 

Considérons deux points M, et 7° dans un espace de phase des 
erreurs (fig. 3.7) pour le cas d’une hypersurface stationnaire S. Ces 
points sont symétriques par rapport à Î’origine des coordonnées et 


correspondent aux valeurs 2% et [x] du vecteur z. Supposons 
que l'équation (3.18) est précisément celle des erreurs. Soit au point 
M; la valeur de 6 égale à +1 et au point M5 à —1. En effet, si le 
processus optimal x (i) vérifiant l'équation (3. 18) démarre du point 
z® et se déroule sous l'effet de l’action v (t), le processus —x (t) 
soumis à l'action —v (+) et partant du point —2® vérifie également 
l'équation (3.18) et est aussi optimal. 

Etant donné que n'importe quels points symétriques par rapport 
à l'origine des coordonnées, ne reposant pas sur l'hypersurface S, 
appartiennent à des domaines différents, l’hypersurface S$S passe 
par l’origine des coordonnées. Ensuite, on tire de Ia définition 
de l’hypersurface qu’elle ne comporte pas de « trous » par lesquels 
il serait possible de passer d’un domaine à l’autre sans couper l’hy- 
persurface. Enfin, l’hypersurface S s'étend jusqu'aux points éloi- 
gnés à l'infini de l’espace de phase. 

Dans le cas général, dans un espace de phase, une trajectoire 
optimale est constituée de nr portions qui correspondent aux inter- 
valles o — const. Par exemple, la figure 3.8 représente pour n:==3 
la trajectoire de phase optimale H,PQO qui part du point M, (vec- 
teur 2%) et compte trois portions. Pour la première portion M,P, 
6 = -+1; pour la deuxième PQ, o — —1; enfin pour la troisième 
00, 6 = +1. La trajectoire M°P'Q'O antisymétrique, ne figurant 
pas sur le dessin, part du point M. (vecteur —x'®). Les valeurs de © 
alternent ‘dans l'ordre suivant: o — —1; +; —41. La dernière 
portion Q”O de cette trajectoire, représentée en trait interrompu sur 
la figure 3.8, appartient au domaine où © = —1 et mène le point 
représentatif à l’origine des coordonnées. 

Soit le processus transitoire démarre à à — 0. On peut compter 
le temps « à rebours » en introduisant la variable t = T — t, où T 
est l'instant final du processus transitoire. Alors c'est la valeur 
T—=0 qui correspond à l'instant final du processus transitoire, 
c’est-à-dire à celui où le point représentatif est recalé à l’origine des 
coordonnées. À mesure que + croît à partir du zéro, le point repré- 
sentatif effectue un mouvement rétrograde suivant {a trajectoire 
optimale, par exemple, suivant la trajectoire OOPM,, en se dépla- 
çant du point O vers Q, puis de Q vers P et de P vers M,. Le point 
M, sera atteint à l'instant & = T quand #{ = 0. 

Il importe de noter que le point © ne peut être rejoint qu'en sui- 
vant l'une des deux trajectoires optimales possibles : Q0 ou Q'0. 
En effet, introduisons + — T — + et suivons l’une des trajectoires 
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« à rebours ». Sur la première portion à compter du point © seules 
deux valeurs de la fonction de commande v sont possibles : + ou 


—M, ce qui correspond aux valeurs o = +1 et æ — —1. Avec 
5 — +1 le déplacement s'effectue suivant la trajectoire O0Q et avec 
o — —1 suivant O0’. Désignons ces trajectoires par L; et Z” respec- 


tivement (fig. 3.9). 

On peut rejoindre ces trajectoires de différentes façons. Un point 
défini quelconque de la trajectoire L; peut être atteint en suivant une 
trajectoire du type PQ associée à la valeur o — —1. Désignons par 


Fig. 3.8. Fig. 3.9. 


L, l’ensemble des points des trajectoires répondant à o — —1 et 
menant aux points de la trajectoire Z'. D'une façon analogue, à cha- 
que point défini de la trajectoire appartenant à l’ensemble Z; mène 
une seule trajectoire associée à la valeur o — +1 (par exemple, 
PM, sur la figure 3.9). Désignons par Z: l'ensemble des points des 
trajectoires associées à ©& — +1 et conduisant à Z:, etc. Construi- 
sons d'une façon analogue les ensembles Z;, L', . .., L, _ et enfin 
L,. Ge dernier ensemble inclut tous les points réguliers de l’espace 
de phase appartenant au domaine o = +1 et ne se trouvant pas sur 
l'hypersurface S. 

D'une manière analogue désignons par L; l’ensemble des points 
des trajectoires qui mènent à Z\; puis par L; celui des points des 
trajectoires qui vont à L,, etc. Il est clair que Z, inclut tous les 
points réguliers de l’espace de phase appartenant au domaine 
o — —1À et ne reposant pas sur l'hypersurface S. 

La figure 3.9 montre qu'après le premier changement de signe 
de 0, les « jets » de dimension n des trajectoires de phase optimales 
deviennent des « jets » de dimension nr — 1, puis après un second 
changement de signe, ils deviennent de dimension nr — 2, etc.; 
enfin au #-ième intervalle apparaît le « jet » unidimensionnel coulant 
vers l’origine des coordonnées. Il n'existe que deux jets unidimension- 
nels de ce type, L: et L?. Tout ce qui vient d’être dit s'observe aisé- 
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ment si l’on effectue le déplacement « à rebours » du point repré- 
sentatif en partant de l'origine. 

Le premier changement de signe a lieu au point P de la trajectoire 
optimale (si le temps # est considéré au sens direct). Le changement 
de signe de o ne pouvant avoir lieu que Lors de l'intersection de l’hy- 
persurface de commutation S, le point P appartient à S. Etant donné 
que l’ensemble des points P est un ensemble des sous-ensembles 
L,, 1 et L,_1 que nous allons noter ZL,,_,, ce dernier appartient à S. 
Mais tout point À de S peut être rejoint en suivant la trajectoire 
o — +1 ou o = —1 à partir d'un point régulier quelconque sans 
commutation, car la commutation ne se produit que sur l’hypersur- 
face S. Par conséquent tout point À de l’hypersurface S appartient 
à l'ensemble Z, _1. 

Ainsi, nous avons établi que l'hypersurface $ de dimension nr — 1 
se confond avec l'ensemble Z, ,; de dimension (n — 1); par consé- 
quent la recherche de S se ramène à celle des points de ZL, _:. 

Puisque dans le cas de l’hypersurface S stationnaire La famille 
des trajectoires L, _; est antisymétrique à L; _; et s'obtient en inver- 
sant les signes de toutes les coordonnées des points de Z,, 1, il suffit 
d'étudier seulement la construction de la famille Z, 4. Pour réaliser 
cette opération, il est commode de se déplacer « à rebours » à partir 
de l’origine en remplaçant f par +7 — 7 — t. Le point représentatif 
se déplace d’abord suivant la trajectoire L' (fig. 3.9) associée à la 
valeur 6 — +1. Supposons qu’à l'instant vx, se produise le change- 
ment de signe de © et le passage sur la trajectoire L, ; à l'instant 
T2 >> T On à un nouveau changement de signe de © et le passage sur 
la trajectoire L., etc. Enfin pour t, 4 >> T2 > ... => 7 on enre- 
gistre le « dernier » (le premier dans le temps réel) changement de 
signe de o. En passant dans l'équation 


anx dix dx 
on Ter ee On TE + ant = v (3.39) 


au nouvel argument t= 7 —t, on obtient une nouvelle équation 


anx ae AT 
a (— 1) Pa (ANT EE, 


+ (— 1) ans tanr=v. (8.40) 


Sa la solution de cette équation pour les conditions « initia- 
es » 
dx at-1> 

Go (5), =. 25), =0 [(3.41) 
et avec uv — + M, c'est-à-dire avec o — +1. On obtient alors l’équa- 
tion dela trajectoire L{ paramétrisée: x — x (1). Pour t — %,: 
le point de l’espace de phase assujetti à cette trajectoire a les coor- 
données x (x,). Si à cet instant on remplace v — +M par v = —M, 
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la solution de l'équation (3. 40) à l'instant T2 => T, est une fonction 
de T, de même que de 7: x — x (ta, To). 
En effectuant les changements de signe de o aux instants T4, To,.. 
., T1 On obtient la solution de l'équation (3.40) sous la forme. 


x — z (T4, Ts + Ta): (3.42) 


Les équations des coordonnées x, Z2, . .., x, du vecteur x s’écri- 
vent 
L'; — Li (T1, T2, . 9 te) (i =— a 2: . 3, n). (3.43) 


Ces équations donnent dans leur ensemble l’équation paramétri- 
que de l’hypersurface S et par là même la solution du problème de 
la synthèse. En éliminant de l'équation (3.43) les paramètres 71, 
T2, + - +, T1 On peut obtenir dans plusieurs cas l'équation de S 
sous une forme explicite, c’est-à-dire sous la forme d’une relation 
associant les coordonnées %1, x, . . ., &, : 


Ÿ (t1, de, - .., n) = 0. (3.44) 


Soit la fonction + positive d’un côté de l’hypersurface S et néga- 
tive de l’autre côté. Soit, par exemple, 4 => 0 pour les points du 
domaine © = + 1 et 4 << 0 pour ceux du domaine o = —1. On 
peut poser alors 

Oo — sign (3.45} 
et | 
v = OM = M sign ÿ = M signa (x, to, . . ., x). (3.46) 


C'est précisément l'algorithme recherché du fonctionnement d’un 
système optimal, c’est-à-dire l’équation v — v (x). À tout point x 
de l’espace de phase l'équation (3.46) associe une valeur de v qui 
correspond à la loi de commande optimale. Des résultats analogues 
peuvent être obtenus pour le cas d’une surface S quasi stationnaire 
[3.11, 3.251, à cette différence près que dans ce cas Z,, _{ et Ly 1 ne 
sont pas er | 
Connaissant la relation (3.46) on peut construire un schéma fonc- 
tionnel de l'organe de commande optimal (fig. 3.10). La grandeur 
de sortie À de l’objet B est amenée par la chaîne de réaction OO’ 
à l’entrée du bloc > de l’organe de commande À. La grandeur X 
peut être un vecteur à plusieurs coordonnées. La chaîne de réaction 
est composée alors de plusieurs circuits qui transmettent les coor- 


données X;, du vecteur X, par exemple X, A , etc. 


On amène également au bloc 3 le vecteur X* de la consigne. Le 
bloc X élabore les coordonnées 1, %:, . .., æ, du vecteur de l’er- 
reur : x; — À#f—X ,. Au besoin on adjoint au bloc Z des dérivateurs 
pour définir les coordonnées faisant défaut par dérivation de certai- 
nes coordonnées d'entrée. Les erreurs 241, æ+, .- . ., æ, sont appliquées 
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sur l'entrée du convertisseur non linéaire CNL qui produit leur fonc- 
tion non linéaire 4 (24, Ze, . . ., æ,). Cette dernière est dirigée 
sur l'entrée du circuit à relais CR dont la grandeur de sortie M sign v 
est justement la grandeur v. Cette grandeur est amenée à l’entrée 
de l'organe À’ qui transforme v (f) en commande uw (t). Si u (t) — 
— y (t), l'organe À’ est inutile. 

Il faut expliquer comment en présence d’une seule hypersurface 
de commutation $S de dimension n — 1 on réalise dans un espace de 


4 
l 
Re mn ES ne Ce me tee en set 


D" 


Fig. 3.10. 


phase de dimension # un processus composé de » intervalles. Pour 
le comprendre il faut retenir que n’importe quel système réel donne 
lieu à des fluctuations qui « repoussent » légèrement le point repré- 
sentatif de la trajectoire de phase optimale. C'est pourquoi le mou- 
vement réel d'un système dépend non seulement de la forme de 


Fig. 3.11. 


l'hypersurface S mais encore de Ia structure de l’espace de phase 
dans le voisinage de cette hypersurface. Cette structure est sché- 
matisée sur la figure 3.11. La partie L,., de l’hypersurface S corres- 
pond ici à la valeur © — +1, et L;,_; à la valeur o — —1. D'un 
côté de Z;,_: (en bas de Ia fig. 3.11) passent presque parallèlement 
d'autres trajectoires qui appartiennent au domaine © — +1 de 
l'espace de phase. De l’autre côté de L;,_; (en haut de la figure 3.11) 
passent les trajectoires &o — —1 qui conduisent précisément à cet 
ensemble Z;,_,. Comme on le voit sur la figure 3.11, dans le voisinage 
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de la partie ZL,_ de l'hypersurface S la situation est analogue à cette 
ne près que ce sont les trajectoires o — +1 qui mènent 
a ni 

Si le point représentatif qui suit la trajectoire L',_1 est chassé 
dans une zone voisine du domaine 6 — —1 de l'espace de phase, 
6 change de signe. Mais ensuite le point représentatif revient, immé- 
diatement (dans le cas d’une fluctuation suffisamment petite) à l’hy- 
persurface. Dans ce cas le mouvement réel du point ne change pas. 

Il en est tout autrement (et une telle situation est inévitable du 
fait de l'existence dans le système des fluctuations les plus diffé- 
rentes) si le point représentatif est chassé dans le domaine o = +1 
voisin de la partie Z;_1 de l’hypersurface $. Le point concerné ne 
revient pas alors immédiatement sur l’hypersurface. Sa trajectoire 
ultérieure passe par le domaine © — +1 dans le voisinage immé- 
diat de L;,_. Par conséquent La trajectoire sera quasi la même que si 
le point représentatif suivait l'hypersurface. Au bout d’un intervalle 
de temps fini Le point représentatif arrive à la partie Z,_ de l'hyper- 
surface $ dans le voisinage immédiat du point © auquel aboutit la 
trajectoire « idéale » de L;,_1. Si maintenant une nouvelle fluctuation 
repousse le point représentatif, il s'engage sur la trajectoire o — —1 
proche de l’une des trajectoires de L;,_o, car c'est par Q que passe la 
trajectoire appartenant à cet ensemble. Après n7 mouvements de ce 
type, le point représentatif, en se déplaçant tour à tour dans les 
domaines © — —1, & — +14, tombe dans le voisinage immédiat de 
l'origine des coordonnées et de sorte que le processus transitoire 
prend fin. 

Par conséquent, la trajectoire réelle passe près de l’hypersurface S 
et à chaque commutation le point représentatif « perce » l'hypersur- 
face S. La figure 3.12 montre une trajectoire réelle dans un espace 
tridimensionnel (7 — 3). La trajectoire idéale est représentée par la 
courbe M,PQ0O dont les portions PQ et Q0O reposent sur la surface 
de commutation $. Si dans le voisinage de la position P une fluctua- 
tion chasse le point représentatif de l’hypersurface S dans le domaine 
G — —1À,]le point vient en position ?, et se déplace ensuite suivant 
la trajectoire P,Q° voisine de la trajectoire idéale PQ. En ©; le point 
représentatif atteint la surface S. Si maintenant une nouvelle fluc- 
tuation chasse le point en position @, avec o — +1, il suivra la 
trajectoire 0,0, voisine de la trajectoire « idéale » 00. En O, le point 
représentatif tombe dans le voisinage immédiat de l’origine des coor- 
données et on peut considérer que le processus transitoire est achevé. 

Revenons encore une fois à la construction de l’hypersurface 
S et rappelons qu’elle représente le lieu géométrique des points de 
premier changement de signe de 6. Pourtant tous les z — 1 autres 
changements de signe de © se produisent sur cette même hypersurface. 
En effet, il résulte de ce qui vient d’être dit que pour assurer les chan- 
gements ultérieurs de signe de o aucun besoin n’est de créer des sur- 
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faces ou des lignes quelconques à l’intérieur de L,,_1. I1 suffit d’avoir 
à sa disposition une seule «cloison » dans un espace de’phase de dimen- 
sion = correspondant au premier changement de signe. Grâce aux 
fluctuations le processus réelfpeut être aussi proche que l’on,veut du 
processus optimal idéal maïs jamais identique. Dans un système 


NN ES NS le 


Fig. 3.12. Fig. 3.13. 


réel le processus idéal est impossible car la probabilité pour le point 
représentatif de se trouver sur l’hypersurface S et de se déplacer sur 
cette surface est égale à zéro. | 

Montrons sur un exemple très simple d’un objet de deuxième 
ordre comment on définit la fonction + et l’hypersurface S. Dans le 
cas concerné l’espace de phase des erreurs devient un plan de phase 
(fig. 3.13) et la surface dégénère en une courbe de commutation qui 


coupe l’espace de phase en deux domaines: © = +1 et o — —1. 
Soit l’objet B décrit par l’équation 
ao = u, (3.47) 
et la contrainte de la forme 
lu | < W. (3.48) 
La classe des consignes est de la forme 
2f (9) = Ao + Ait + A, (3.49) 


où À, A, et À, sont des grandeurs constantes pour chaque processus 
particulier. Les fonctions admissibles z* (#) sont les solutions de 
l'équation (3.47) sous la condition 


u|< M. (3.50) 


Le signe < est remplacé ici par << pour que le point x puisse 
«rattraper » le point x *. Etant donné que 


—7"-|<M, (3.51) 
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en portant la seconde dérivée de l’expression (3.49) dans la condition 
(3.51), on a 

M 
240 ” 


| A[< (02) 


Cette condition est une contrainte sur les fonctions admissibles 
du type (3.49). 
L'équation du processus optimal devient alors 


dx OM TR 
di ay” (3.58) 
où 6 — +. 
Désignons par x l'erreur, c'est-à-dire la différence 
TL — aŸ —— 1) (3.54) 
et par y sa dérivée: 
dx dx* dx 
Be à 00 
Les équations (3.53), (3.54) et (3.49) entraînent 
dèx LrY dx] CM 
di — de de — 242 — a Po (3.56) 


Dans chaque intervalle la grandeur 4 est constante du fait que 
o — const. Passons maintenant au temps « rétrograde » t = 7 — 1, 
Compte tenu de l'équation (3.56), il vient 


d?zx d [dx d dx \ dx nr 
dE à Cr) L Hi) Ta Mo Rene 
Ensuite 
d dx d? 
et 
2 
T= — À y dt = Ja AT + Mo “5 (3.59) 


où um, et 2 sont des constantes. Recherchons les courbes Z, et L: 
qui constituent dans le cas considéré la courbe de commutation. 
Etant donné que pour t = © les grandeurs y et x associées à ces cour- 
bes deviennent nulles, (3.58) et (3.59) conduisent à 4 = ue = 0. 
Par conséquent 

2 


= Boss = —Hot. (3.60) 


Cherchons d’abord la courbe Z, du domaine o = —1. En vertu 
de (3.56) et de la condition (3.52) le signe de u, est défini par celui 
de 6: 

sign Uo — — Sign 0. (3.61) 
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Etant donné que t => 0, on tire de la deuxième équation (3.60) 
que 


Sign y — —Sign lo. (3.62) 
Par conséquent 

sign y — sign 6 — 6. (3.63) 
Ainsi avec o — —1 on a u, >> 0 et y 0. De ce fait le déplace- 


ment suivant la courbe Z” a lieu dans le demi-plan inférieur (fig. 3.13) 
En éliminant des deux équations (3.60) l’argument +t, on obtient 
l'équation de la courbe # sous la forme 


5 7e > 0 (3.64) 


G — sign 0 —signy— — 1. 


Pour la courbe Z; on a & — +1. Par conséquent, comme on le 
voit de (3.56), sign po = —14 et en vertu de (3.62) y = 0. Dans ce 
cas les équations a as 


o = sign 0 — sign y = +1. | 


On peut réunir les équations des deux courbes L’ et Z' en une seule 
pour la courbe L, = S: 


(3.65) 


2 2 
Ho à (24— sign y) 


où au lieu de 6 = sign o figure sign y égale à o. L’ expression (3.66) 
est l'équation de la courbe de commutation. On peut l'écrire sous 
une forme analogue à (3.44), c'est-à-dire sous la forme % = 0, où 


2 Dose 
dx, y) = x + gr —— = 2+ nt — (3.67) 
2 (a sign y—24,) 2 (524: sign y) 


La figure 8.143 montre la courbe de commutation W;N ONsN: 
et les trajectoires optimales dans le plan de phase. Le point repré- 
sentatif qui part de N, suit la trajectoire parabolique NiNoN 3 qu'on 
obtient aisément en cherchant la solution de l’équation (3.56) pour 
o — +1 et les conditions initiales associées au point W,. En NW; 
le point représentatif atteint la courbe de commutation. Après le 
changement de signe, dans le cas idéal, le point représentatif se 
déplace le long de la courbe de commutation W;W,0 vers l'origine 
des coordonnées. La présence des fluctuations fait qu’en réalité le 
point représentatif se déplace suivant le trait interrompu W:W,0 
dans le domaine & — —1, c'est-à-dire suivant une trajectoire voisine 
de W:N,0 pour venir en O" dans le voisinage immédiat de l’origine. 


9—0966 
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Si à l'instant initial le point représentatif est en W;, c'est-à-dire 
dans le domaine hachuré où o — —{, il suit alors la trajectoire para- 
bolique N;NaN, (solution de l'équation (3.56) pour o — —1) jus- 
qu'à la portion de la courbe de commutation N,W,0 qui se situe dans 
le deuxième quadrant, puis la courbe de commutation vers l’origine 
des coordonnées. | 

Comme 1 (x, y) (3.67) dépend du paramètre À: de la consigne 
z* (t), d’après la définition donnée dans ce qui précède la courbe de 
commutation $ est quasi stationnaire. On pouvait s’y attendre car 
l'équation (3.56) de l'erreur x (f) comporte le paramètre 4° Dans 
ce cas les parties L’ et L de la courbe de commutation S ne sont plus 
antisymétriques par rapport à l'origine. En effet, dans la formule 


(3.66) avec y << 0 Ile module du dénominateur est | a +243) , alors 


qu'avec y >> 0 le module devient -—2A |. Par conséquent les 


demi-paraboles Z’ et L’ diffèrent et ne peuvent pas être amenées 
en coïncidence par rotation de l’une d'elles de 180°. Si l’on examine 
une classe des consignes plus restreinte 


t$ (1) = Ao + Ait, (3.68) 
pour laquelle À, = 0, les paramètres de la consigne ne figurent pas 


dans l’équation (3.56) de l'erreur x (rt). Dans ce cas l’expression (3.67) 
s'écrit 


. 
pr p=s+ UE (3.69) 


ap 


et les deux demi-paraboles L' et Z, sont antisymétriques par rapport 
à l'origine. Le deuxième terme du second membre de la formule (3.69) 
représente la réaction quadratique en vitesse qui a déjà figuré 
dans [3.1]. 

Connaissant l'équation (3.67) on peut réaliser la synthèse d'un 
système optimal. En substituant à x dans l’expression de 1Ÿ une valeur 
suffisamment grande on obtient 4 => 0. Par conséquent la fonction 
+ >> 0 est au-dessus de la courbe de commutation. D'une façon ana- 
logue on montre sans peine que Ÿ << 0 est au-dessous de cette courbe. 
On peut appliquer alors la grandeur w — 1% à l'entrée d’un circuit 
à relais dont la caractéristique est montrée à la figure 3.14,a. La 


crandeur de sortie u de ce circuit, égale à 4, peut être appliquée 
à l’entrée de l’objet. Cependant en pratique on est souvent obligé 
de remplacer ce circuit à relais par un circuit plus compliqué. En 
effet, la solution trouvée ci-dessus et l’organe de commande optimal 
correspondant ne présentent un avantage que dans le cas de grandes 
valeurs de l'erreur et de ses dérivées. Lorsque dans l’espace de phase 
des erreurs le point représentatif est dans le voisinage de l'origine 
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ou même de l’hypersurface S, Ia loi optimale de déplacement peut 
être remplacée par une autre, par exemple par une loi linéaire. La 
durée totale du processus transitoire augmente peu par suite d’un 
tel remplacement. Par contre on considère que les oscillations dans 
le voisinage de l'origine sont généralement indésirables. On peut 


Fig. 3.14. 


les diminuer en donnant à la relation x — f (w) la forme d’une des 
courbes représentées sur les figures 3.14, b, c, d. Avec [w|=> 6, 
où Ô est petit, ces relations se confondent avec la caractéristique d'un 
circuit à relais. 

Le signal de commande w peut être remplacé par une autre gran- 
deur quelconque w, de même signe, par exemple 


M - 
W, — 2W (5 —24sign y) — 
= 2% (= — 24, sign y) + y? sign y. (3.70) 


Cette expression est plus commode que (3.67) car elle est exempte 
d'opération de division. 

La figure 3.15 représente le schéma fonctionnel d’un système 
qui réalise la loi de commande (3.70). L'objet B est figuré ici par 
un double trait. La grandeur de sortie X de l’objet, qui est la gran- 
deur à régler, après le changement de signe effectué par l’inverseur 
(—1), est amenée à l’entrée de l’additionneur >, qui reçoit également 
la consigne X,. La différence À, — À — x est fournie à l'entrée 
du dérivateur D, de même qu’à l'une des entrées du multiplieur 
M-2. La grandeur M/as — 2A:, sign y est amenée à la deuxième 


x 


entrée de ce même multiplieur qui délivre à sa sortie le produit 
o E 
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22 (M/ao — 2A, sign y}, c'est-à-dire le premier terme de la formule 
(3.70). Leïffacteur M/a;s — 24, sign y de cette expression s'obtient 
par l’addition de la grandeur M/a, — const et de la sortie d'un autre 
multiplieur -1. À l'entrée de ce dernier sont appliqués également les 
facteurs sign y et —24;. Le premier de ces facteurs est fourni par 
la sortie du convertisseur non linéaire (CNZL-2) à caractéristique 
de relais recevant à son entrée la grandeur y. Le facteur —24,'est 


—  — 27 (8 LAusigny 
D cn 


£ —2A, Sign y 


LU é v] 
| —awr-2) p? 
" sign y |. | 
PA 
| Ë 
F - …: 
— 4 Er 
X de d L X 


Fig. 3.15. 


l'accélération —d°X ,/d&? débitée en permanence par le double déri- 
vateur D?. On suppose que la consigne À , (f) n’est pas déformée par 
les bruits et la dérivation se produit sans distorsions. 

La grandeur d'entrée du convertisseur non linéaire (CNL-3) 
est La somme figurant au second membre de l'égalité (3.70). Le deu- 
xième terme de cette somme est fourni par le convertisseur non li- 
néaire (CNL-1) qui reçoit y à son entrée. La caractéristique du con- 
vertisseur (CWL-3) est de l’un des types représentés sur la figure 
3.14. En plus des organes représentés sur la figure 3.15, le schéma 
peut comporter des circuits supplémentaires nécessaires dans le cas 
de faibles écarts lorsque le système est régi par une loi autre que la 
loi de commande optimale [3.251. | 

L’algorithme (3.60) est relativement simple et dans le cas (3.69), 
lorsque À» = 0, il devient tout à fait trivial. Plus généralement, 
dans le cas d’une contrainte de deuxième ordre, sous la condition 
d’applicabilité du théorème des nr intervalles, les algorithmes des 
systèmes strictement optimaux sont relativement simples. Soit, 
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par exemple, l’objet composé d’un circuit avec inertie et d'un inté- 
grateur couplés en série ayant Ia fonction de transfert 


D — 7 (D) 2 7 
AU p {1 en u(p) Se 
où x, (p) est la transformée de la grandeur à régler x, (#) à la sortie de 


l'objet et x (p) la transformée de w (4. 
Supposons que 


lu IS M (3.72) 
et la consigne appartienne à la classe 
z* (9) = ÀAo + Ait. (3.73) 


On montre aisément que les fonctions admissibles de cette classe 
doivent, dans le cas considéré, vérifier la condition 


Al <<: = M. (3.74) 


La formule de la grandeur w fournie à l’entrée du circuit à relais de 
l'équation 

u (ti) = M3 sign w (3.75) 
s'écrit alors | 


w=æ+T|(A4;+M sign y) In (1 (3.76) 


_— Ms) Le | 
A+ M sign y} 9 |: 
où x = 2* — x, est l'erreur et y sa dérivée (cf. [3.25)]. 
Avec À; = 0 cette formule se met sous une forme très simple 


w=z+T| Msignyin (1— Dl)+y]. (3.77) 


La courbe de commutation donnée par la formule (3.76) dépend 
du paramètre À, de la consigne. Elle est donc quasi stationnaire. 
Dans le cas particulier qui correspond à l'expression (3.77) la courbe 
de commutation ne dépend pas des paramètres de la consigne et est 
stationnaire. 

Considérons à titre d’exemple le problème des trajectoires dans 
un espace de phase tridimensionnel. On borne en valeur a bsolue la 
dérivée d’ordre trois de la grandeur x; à régler 


dèz 1 


| M. (3.78) 


On peut montrer que, si la consigne x * appartient à la classe des 
paraboles (3.49), la surface de commutation $ est stationnaire. C’est 
pourquoi nous pouvons poser pour plus de commodité que x * — 4,— 
— const, ce qui ne modifie pas le résultat, car de toutes façons S 
est indépendante des paramètres de la fonction x* (à) (3.11, 3.251]. 


134 SYSTÈMES OPTIMAUX À INFORMATION COMPLÈTE [CH. Ht 


L'équation de la contrainte (3.39) s'écrit 
dr 


53 OM =v. (3.79) 


Avec les notations du temps « rétrograde » 7 = T — # elle prend la 
forme 


Br! 

es — —0M. (3.80) 

Cherchons à résoudre cette équation pour les conditions initiales 
nulles (3.41) et o = const. Posons 


- _ dt _ dx 7 
T= XL — Li, Re ht 
__ dx dx dy (5.81) 
dd à: j 
Alors (3.70) entraîne avec © — +1 
dz 
= — M, (5.82) 
d’où pour T = 7, il vient 
z = —MTi. (3.83) 
Ensuite on a pour T = 7: 
T1 
y=—(za-mM (3.84) 
Ô 
et 
ti 
T° 
2=—|ya--M x. (3.85) 
Ô 


Les égalités (3.83), (3.84) et (3.85) sont les équations paramétri- 
sées de Z;. Ces égalités donnent à l'instant t = Tv, les coordonnées 


Fig. 3.16. 


du point représentatif W, issu de l'origine des coordonnées (fig. 3.16). 
Soit maintenant à cet instant la grandeur © qui change pour devenir 
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o — —1. On a alors à intégrer l'équation 
dz 
E=+M (3.86) 


sous les conditions initiales (3.83)-(3.85). Si la lecture du temps 72 
débute à l'instant de commutation, les formules de z, y, x pour la 
deuxième portion se mettent sous la forme 


T 
= | Mdr MM (tv), (3.87) 
à 
Te : 
y= — À zd+ ME 


0 


à 
Mr; 


Mi (r— tv) (3.88) 


= M (t—) du+ 


et 


Ta T2 | 
Z— — À y dr —M À = _— | [Ma (at) | To — Mi = 
Ù Û 


= — M To + T (to— T4). (3.89) 


Les expressions (3.87), (3.88) et (3.89) sont les équations para- 
métrisées de la surface Z;, celles de la surface Z° s’obtiennent aisé- 
ment en inversant le signe de x, y,2z 


M 
XL —= Mriite (Te — Ti), 


(3.90) 


M 
y = — Mi + {(t-), 
3 — — M (to —7T;). ] 


En modifiant les valeurs des paramètres Tt, et T% des formules 
précédentes dans des limites 


O0 LT: << 0, | 


Da a. (3.91) 
on peut obtenir tous les points de la surface de commutation S. 
Dans l’exemple considéré on peut éliminer également vt, et 2 des 
deux groupes d'équations et, en réunissant les deux « demi-surfaces » 
L, et L° 13.11, 3.25], obtenir une équation de la surface S sous une 
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forme explicite : 


Ÿ (x, y; 2)=x+ _e + (sign w) [+ VA (+usignw)*|-0, 


W=y+ sr sign 2 (42.112) 


La fonction de commande s'exprime par la formule 
v = M sign Ÿ. (3.93) 


L'équation (3.92) est déjà relativement complexe. Pour d’au- 
tres exemples de contraintes de troisième ordre, les algorithmes d’un 
système strictement optimal le sont encore plus. Avec n = 2, les 
algorithmes sont aussi relativement compliqués si l'équation caracté- 
ristique compte des racines complexes conjuguées [3.23]. Pourtant, 
pour n'importe quels types de systèmes de troisième ordre on peut 
trouver des algorithmes approchés optimaux relativement simples 
(cf., par exemple, [3.67]). 


$ 2. Application des méthodes variationnelles 
classiques 


Commençons par des exemples simples. 


Soit l’objet défini par l'équation linéaire à coefficients constants 
amX 
Om ns eee + boXÂ = ui), (3.94) 


où X (+) est la grandeur de sortie et w (#) la commande. La fonction 
de transfert de l’objet s'écrit | 


dont id. à | 
L | KB (p}= — D — ù 
_X u (p) bm PM +... +00 Pg(p) 
ne (3.95) 


Fig. 3.17. La figure 3.17 représente le schéma 
fonctionnel d’un système asservi dans 
lequel l'erreur x constitue la différence entre la consigne X, et la 
grandeur à régler X : 
X — Xo — X. 


Soit pour plus de simplicité 


x | 


À) —= const, L > 0, 
0, t< O0, 
on considère ainsi la réponse transitoire du système à l'écart initial ; 


par ailleurs, pour £ << 0 tous les circuits du système sont au repos et, 
par conséquent, la grandeur X, de même que ses dérivées, est égale 
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à zéro. L'erreur x est donnée par la somme 


où x, est l'erreur du processus stationnaire (constante dans l'exemple 
considéré), alors que x, est l’erreur transitoire qui s’annule une fois 
que le processus transitoire prend fin. On doit choisir un organe de 
commande À tel qu'il minimise l'intégrale 


(e,o] CO 


Je fvat= | [aitu (Se) He His (Ge) lé. (8.97) 
Ô Ô 


Les problèmes relatifs aux objets linéaires où les critères d’opti- 
malité sont donnés sous la forme d’une intégrale de la forme quadra- 
tique constituent le type le plus simple de problèmes de synthèse 
des systèmes optimaux, car dans ce cas l'organe de commande 
optimal est également linéaire. En effet, nous avons montré dans le 
chapitre IT que la trajectoire optimale x£ (4) qui minimise l'intégrale 
(5.97) est une solution de l'équation linéaire 


dnx* (t) dax (D (#) 


Ÿ'n din + Ÿ'n- 1 DL RE ES dora ()= —_— (3.98) 


Les coefficients Ÿ, de cette équation sont associés aux coefficients y; 
de la forme quadratique V de (3. 97) par des relations qui s’obtiennent. 
aisément à partir de l'équation d'Euler. Nous les avons données dans 
le chapitre II. 

Dans le problème simple examiné dans ce qui suit les conditions. 
initiales de x4 (é) ne varient pas. Les cas des conditions initiales. 
variables peuvent être étudiés par des méthodes classiques du cal- 
cul des variations. Il est pratiquement plus commode alors de consi- 
dérer non pas l'équation générale du système mais l’ensemble des 
équations de ses circuits. 

Etant donné que l'équation du système est linéaire d'ordre nr. 
et que l'équation de l’objet d'ordre m << n est également linéaire, 
l'équation de l'organe de commande doit être aussi linéaire et son 
ordre est x» — m. Soit K4 (p) la fonction de transfert de cet organe. 
La fonction de transfert du système en boucle fermée s'écrit ‘alors 

K! (p) = KA __ÆA (p) Æ p(p) X (p) (3.99). 


st 


(1+KaG) KB) Xp)! 


où Xo(p}) est la transformée de la consigne. Compte tenu de (3.96) 
il viént 


K { 
Lo 4 AOEr D 4 PP AE 4 
Te KaG@)  Ps(p)+Ka(p}) 
ue Pg (p) 
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Soit, dans le cas général, 


Ka(p)= <a, (3.100) 


où le degré du polynôme @4 (p) est inférieur à celui du polynôme 
P À (p) égal à nr — m. Par suite 


a AoQ A (P) 
Nip VA 3.101 

PIE FA (Pr + Ca @) An 
Les conditions initiales de x, (t) ne sont invariables, c’est-à-dire 
indépendantes des paramètres de la fonction de transfert X , (p), 
que lorsque pour ? — 0 la fonction X (1) et ses n — 1 dérivées ne 
dépendent pas de ces paramètres et sont égales à zéro. La valeur 
initiale de l’ i-ième dérivée étant assujettie à la transformée *) X (p), 


diriX De dei e 
pour Gr). — 0, par l'égalité 


diX dE AoptQa (p) 
PE ot 0 DL TETE 
ia condition 
dix - 
(Sr), —0 (12,23 0-0 (3.103) 


signifie que le degré de Q 4 (p) doit être égal à zéro, c’est-à-dire Q 4 (p) 
doit être une grandeur constante. Ainsi, sans porter atteinte à la 
généralité, posons pour ce cas Q4 (p) = Î et 


1 


1 
La Ge ananas (410 


En vertu de (3.101), l'équation du système sous la forme des trans- 
formées s'écrit 
[Pa p) Pa (p) + 11 X (p) = 40 (3.105) 


et l'équation caractéristique, la même pour X (!) et pour l'erreur 
transitoire x, (t)}, devient 


Pa) Pr(p)+1=0. (3.106) 
Par ailleurs, (3.98) donne l'équation caractéristique du système 
optimal sous la forme | 
H (p) = 0, (3.107) 
où 
H(p)= 021p" +0n1pt31+,.. +. (3.108) 
La comparaison de (3.106) et de (3.107) conduit à l'égalité 
aH (p) = Pa(p)Pz(p)+tf, (3.109) 


*) La transformée utilisée ici est celle de Carson. 
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où «à est un nombre quelconque différent de zéro. Si l'on choisit 
maintenant le polynôme P 4 (p) tel que l'égalité (3.109) soit réali- 
sée, le système dans son ensemble devient optimal au sens indiqué 
ci-dessus. 

En égalant les coefficients des mêmes puissances des premier et 
second membres de (3.109) on peut obtenir nr + 1 équations. Les 
inconnues de ces équations sont œ,4p, &4, - + +; An em  dOnC Le nombre 
total des inconnues est r — m + 2. Le système s'avère compatible 
et défini lorsque n + 1 = n7 — m + 2, c'est-à-dire lorsque m — 1. 
Ainsi, dans le cas considéré , l’objet ne peut être que de premier ordre. 

Soit, par exemple, l’objet B qui représente le circuit intégrateur 
de fonction de transfert 


0 1 _ 1 
K» (p)=< Te DE (3.110) 
6o 
Supposons également que l'égalité (3.107) s'écrive 
H p) = p? + 2d000p + © = 0, (3.111) 


c'est-à-dire que tout le système doive constituer un circuit oscillant 
minimisant l'intégrale (cf. chapitre IE) 


r- | {xà + 2073 (Se. 3.) rs | (3.112) 
où 
To. d = ET. (3.113) 


La fonction de transfert de l'organe de commande n'est alors 


que du premier degré 
Pa (P) = &p + &. (3.114) 
En substituant dans (3.110) les expressions de P,4 (p), P 3 (P) 
et À (p) données par (3.110), (3.111) et (3.114) on arrive à 
a (p°? + 2d50op + @f) — (ap + &o) (Z +) + 1, (3.115) 
d'où l’on tire trois équations pour les connues @, di, Go 
40 


"Eo ! 


1 


a 
Fo 2a4do09p = QI — 4. 


Par conséquent 


260do 
ra d—=—> l——— ; 


| O2 ? Wp 
et l'organe de commande optimal se trouve être un circuit inertie 
de fonction de transfert 
3.416 
PAPE Es En Trpta E9 
V ÉMRST7 
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—_%, p,__1_ 
DEC Déde 


Dans ce problème on peut avoir @Q aussi grand que l’on veut, 
c'est-à-dire la durée du processus transitoire dans le système peut 
être aussi petite que l’on veut. Mais d’après (3.117) la grandeur K, 
doit être choisie suffisamment grande, ce qui entraîne que dans ce 
cas la commande w (f) devient également aussi grande que l’on veut. 
Pour restreindre cette grandeur, ne serait-ce que son intégrale, om 
peut ajouter la contrainte 


Ka (3.147) 


= {us (dt < 
Ù 


Si l'on considère le régime transitoire le plus « pénible »,on peut. 
remplacer l'inégalité par l'égalité 


œ 


La = | u2 (f) dt = M. (3,118) 
L'équation de l'objet étant 
IX Eu, (3.119) 
il résulte pour l'exemple concerné, avec x; = 0 et À, — const, 
PE (ea) = = Le (No X) = 7e (do X) = — Te — Eu 


et la condition (3.119) devient égalité 
| A (us (t) ses à: _ (Gé | di= M. (3.120) 
| 


Introduisons le multiplicateur de Lagrange À. Si la condition 
observer est (3.120), la minimisation doit porter sur l'intégrale 


à 
OT ES 


*: {a+ (rite) (9) + (5) &. (4124) 
( 
Posons 


20:T3— 207 +- 


_&k > 


On obtient alors pour l'intégrale Q la même expression que pour 
l'intégrale Z,, seulement © est remplacé par 0’. On en déduit que la 
solution a également la même forme, seulement do est remplacé 
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par d': 
DRE AT É 

= + (22+1 2d+ ee) -y/ a+ mL (3.122) 


D'autre part, le paramètre À doit être choisi tel qu’il vérifie la 
condition (3.120). Cette condition, où figure également la valeur 
À, de la consigne, donne encore une relation entre les paramètres, 


alors que les deux autres sont données par les équations du type 
(3.117) 


Op À 


FA A on 


Nous ne parviendrons plus à rendre Le processus transitoire x; (#) 
susceptible de minimiser l'intégrale (3.112). La trajectoire optimale 
za (t) satisfait à l'équation 


d? se. 20 
+ 20 + Déra = 0. (3.123) 
Calculons pour cette courbe l'intégrale 
1 (Se) a | U dt (3.124) 
ù ù 


d'après la méthode exposée dans 13.25]. Les conditions initiales 
de x, s’écrivent (avec x. = 0 et x = x;) 


(ta):=0 — (Xo — X)3=0 = Ag 
dx d d 
(Se) 0 | X)— @ |,. —0 


1 = B;4!, (3.125) 


c’est-à-dire la grandeur 7 est égale à la valeur initiale de la forme 
quadratique 


Il vient 


W = Bus + 2Bioxixe + Boore, (3.126) 
qui vérifie la condition 
=. (3.127) 
dt | 
On a posé ici 
dzq 
Utd, LT 


On en déduit 
U= (SE = 0. (3.128) 


142 SYSTÈMES OPTIMAUX À INFORMATION COMPLÈTE [CH. nt 


Au lieu de l'équation (3.123) nous pouvons écrire deux équations 
de premier ordre 


dx1 1 
dt Ÿ2 | 
+ (3.129) 
er ep T1, — 240 | 
dt — TT 91 0 T2 J 
Ecrivons l’ésalité (3.127) sous une forme développée 
_y=iW du | 0W dm 


dan & lo 
Portant ici les expressions (3.128), (3.126) et (3.129) on aboutit 
à Rp 
= 2B 1%1T2 + 2B 122% = 2Bu?. it _— 2B 20° oLiT2 — 
—4B;2do0tit2 — Ad O0B 228%. (3.130} 


En égalant les coefficients des termes identiques des premier 
et second membres, on obtient trois équations 


— 2B20% = 0; 2B 11 — 2B30, — 4B;9d,00 — 0; | (3 131) 
2By2 —4d00B9 — — 1, | 
d'où l’on trouve 
{ 
Biz =0, Ba ro ? Du 4 (3.132) 
(3.125) devient 
I1—BuA— PA. (3.133) 
Compte tenu de (3.133), la condition 34241) donne 
A EM, (3.134) 
di 
d'où . 
d; — TM = K@9, (3.135) 
où _ 


Connaissant d’, on peut trouver À de (3.122) mais nous n'’allons pas 
nous y attarder. 
La substitution de (3.135) dans Les expressions de k£4 et de T4 
donne les paramètres de l’organe de commande optimal À 
2EoM 2E3M | 
ka = re sy Ta DA (3.137) 
On en tire qu'avec un seuil admissible M peu grand et une gran- 
de valeur de À, les valeurs du gain #, et de la constante de temps 74 
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doivent être petites. On voit aisément que la solution de l'équation 
(3.123) de la trajectoire optimale n’est plus un processus transitoire 
aussi rapide que l’on veut, quelque grande que soit &,. En effet, 
l'équation caractéristique de la trajectoire optimale s'écrit 


p°+ 2d:o6p + = 0, (3.138) 


Portons la valeur de d' tirée de (3.155). L’équation (3.137) se met 
alors sous la forme 


p? + 2k05p + @j — 0. (3.139) 


Ses racines sont 


a À 
Pia = — NO + V #0i—œ — wi (—* E V'r—+) . (3.140) 
Avec @—+> 00 l'une des racines 
pie Gi(—x— Va) — Duo (3.141) 


tend vers — oc et donc n’influe plus sur le processus transitoire. 
La deuxième racine 


pan (—#+x)/1— 5) = 
1 À 
e ox {—1+1— Ga > +o(— =))--% (3.142) 
avec @; —>- co ne dépend plus de of. La figure 3.18 montre la tendan- 
ce des racines Pa et P2 pour @ oo. Ainsi le processus transitoire 


devient l’exponentielle À, exp {prt} — A, exp { —%) qui ne 


dépend pas de &°, c’est-à-dire le processus optimal ne peut pas être 
aussi rapide que T'on veut. On peut trouver des exemples analogues 
de synthèse des systèmes optimaux ou de , 
recherche des paramètres optimaux dans 13.15], J 
11.5], [1.9], [3.28] BR a | 


Les méthodes classiques du calcul des S——t* D 
variations permettent également de résoudre A 
sans peine les problèmes de synthèse dans le 2æ 
cas où l'équation de l’objet est d’un ordre Fig. 318. 


plus élevé, si seulement cette dernière est 

linéaire à coefficients constants, alors que Île critère d’optimalité 
et les expressions à restreindre par les égalités sont des intégrales 
des formes quadratiques. 

La résolution devient plus difficile lorsqu'on ajoute des contrain- 
tes sous la forme d’inégalités ; de plus, comme nous l’avons dit au 
chapitre II, les difficultés accroissent lorsque le résultat doit être 
donné par des fonctions discontinues. Pour éviter ces difficultés 
et simplifier la procédure de résolution par les méthodes classiques, 
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on remplace parfois le problème initial par un problème approché, 
qui diffère du problème initial par ce que ses conditions comportent 
des fonctions aussi « lisses » qu’il faut pour obtenir la solution de 
même suffisamment lisse. Considérons à titre d'exemple le problème 
examiné dans [3.29]. Soient les équations de l’objet de commande 


PE 2j ( Los ve Enr Us Ugo, se) Ur) G=1, 2, ne: n); (3.145) 


la tâche consiste à choisir les commandes 4, us, . . ., u, telles 
qu'elles minimisent l'intégrale 
x td 
Q= À Vu dues dm, Mas Ua... ur)dt, (3.444) 


LA 


0 


où 7 n’est pas fixé, alors que la fonction V est supposée dérivable 
par rapport à tous ses arguments, de même que les fonctions f; (i — 


— 1,2,...,n). Les valeurs initiale et finale du vecteur x — 
= (ti, Lo, . . ., à) sont également données. 
Soit la contrainte supplémentaire 


Ÿ (u) — Ÿ (4, Uo, ..…., U,) L 0. (3.145) 


Pour approcher cette contrainte on peut introduire la «fonction 
de pénalisation » en imposant une « pénalité » très élevée pour l’inob- 
servation de la condition (3.145). Soit la valeur de la « pénalité » 


— (0, v<0, 
L (D) = | kw, => 0, 


où À >> 0 est suffisamment grand. L’inobservation même négligeable 
de la condition (3.145) donne lieu à une « pénalité » d’une valeur 
importante. Le problème se formule alors comme suit : Ia commande 
idéale doit assurer le minimum de l'intégrale (3.111) tout en obser- 


vant la condition 


(3.146) 


T 
À L (u) dt —0. (3.147) 


0 


La condition (3.147) est exacte, car si elle n’est pas violée, 4 ne 
devient positif en aucun instant (sauf, peut-être, dans le cas de l’en- 
semble de mesure nulle, non considéré ici). L'artifice qui consiste 
à remplacer la condition (3.145) par l'égalité (3.147) où figure l’inté- 
grale peut simplifier sensiblement la résolution du problème (cf. éga- 
lement [3.271]). Considérons maintenant au lieu de l'intégrale initiale 
(3.144) une nouvelle intégrale 


T 


Q'=Q+\z(&)a- 


0 


T 
v dt+. L dt. (3.148) 
LL 
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Pour être plus précis, il faltait introduire un multiplicateur de 
Lagrange devant le deuxième terme. Pourtant lorsque le coefficiene 
k de la formule (3.146) est suffisamment grand, même une faible 
« pénétration» de x dans le domaine interdit 9 =0 provoque un si 
grand accroissement du deuxième terme que Q” s’écarte fortement 
du minimum. Ainsi le point uw associé au minimum ©” se situe soit 
à l’intérieur du domaine 4 < 0, soit pratiquement sur la frontière 
de ce domaine. Nous pouvons donc nous guider maintenant par le 
seul critère (3.148) sans faire appel à (3.147). 

Les équations de l’objet (3.143) jouent dans le cas considéré le 
rôle des contraintes sous la forme d’égalités 


À; — }; (x, Los ee, Xnr Ugo Ugs + ..., Uy) —= 
(i = 1,2, ...,n). (3.149) 
Pour en tenir compte, il faut introduire les multiplicateurs 


de Lagrange À; (cf. chapitre II, équations (2.153) et (2.154)1 et au 
lieu de Q” minimiser une autre grandeur Q”, 


T T 


or = Vdi+ | Ldt+ 
L 


0 


ñn T 
+ LTD te fes 2e dns un ee, ul} = À Fe dt, (3.150) 
Ù  i—1 pi 
où 


F*=V (tu, ..., %n) + Li, ..., Ur) + 


+ D esse es ns un co un). (8451) 
3—= 


Maintenant il faut composer les équations d’Euler-Lagrange en 
considérant x; et u; comme variables ordinaires : 


oF* d ofF* FR 
- nr Sul (=1,2,...,n) (3.152) 


et 


= ÿ HN 2,0). (3.153) 


Par ailleurs; il faut encore remplir n conditions (3.149). Au total 
on obtient 2n + r équations pour les inconnues x; (i = 1, 2, ... 
,N, À; =1,2,...,n) et u,(k —=1,2,...,r), dont le 
nombre total est également 2n + r. En portant dans (3.152) et 


10—0966 
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(3.153) l'expression (3.151) on aboutit aux équations 


ET =1,-2 5,02) (3.194} 


et 


ôL +: ôf; 
Gun — À M ur — 0 (RE ="1, 2, “se T): (3.199} 
= 
Si on exprime les w, de (3.155) à l’aide des autres variables du 
dur 


système (<> ne font nulle part partie des égalités| , il reste alors 


2n équations aux 27% inCOnnUES Zi, Lo, « « +, En Et Mg, À, + +, ns 
alors que les conditions aux limites données sont au nombre de 2n. 

Traitons l'exemple d’un objet linéaire. Soient ses équations qui 
s’écrivent 


in 
Re D ait; + diu, (3.156) 
j=1 
où 
8 0, ii, 
1 — 


— 157 
Lette 200) 


Ainsi, w n’est présent que dans la première des équations (3.156). 
Supposons qu'il faut minimiser la durée du processus transitoire. 
On a 


Q— À l-dt=T. (3.158) 


Par conséquent V = 1. Ensuite, soit l’unique commande w (f) res: 
treinte par la condition 


lu| M. (3.159) 
On peut donc poser 
L (u) = Li (u) + Le (u), (3.160) 
ou >. 
L (u) =! 0, u+M>0, ] 
IUT k{u+ MP,  u+M<O0. | . 
O, M—u>0, | DEN 
LQ) = eo un M—u<0. ) 
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Ces fonctions sont représentées sur la figure 3.19,a. D'après 
(3.151) la fonction F* pour l’exemple traité est de la forme 


F*=A + {L (u)+ Lo (u)] + > are D anÿ—?;— nu). (3.162) 
= = 


Le système des équations d’Euler (3.154) et (3.155) s'écrit alors 


(8.165) 


{ l 
Be LL S'aphs G=1,2,...,n), (8.163) R | 
j=1 É | | 
l=plu)=plu)+pl(u), (3.164) 4 | | a 
où | à! | 4 
dL 
pu)=- | 
et | À PU) | 
P1 (u) = u en) b) | | [2 
| 2k(u+M), u+M<O, | | 
ns 0, M—u >> 0, . 0 4 
Pa (u) — —2k(M—u), M—u<0. J | 
| #,(u) 
( 
s 


La figure 3.19,b représente la courbe 

q (u). Elle est composée de la portion Fig. 3.19. 

@ (u) = 0 avec |u| < M et des portions 

linéaires de pente £. Plus la valeur de £ est grande, plus les droites 
inclinées sont proches des demi-droites verticales matérialisées par 
le trait interrompu. 

Les inconnues À, vérifient le système d’ équations (3.163) adjoint 
au système d’ équations (3.156) de l’objet. Si les racines de l'équation 
caractéristique associée à (3.196) sont négatives et réelles, on peut 
montrer que les racines de l'équation caractéristique correspondant 
au système (3.163) adjoint sont également négatives et réelles. Soient 
ces racines égales à V4, V2, - - -, Ye. On a dans le cas général 


M = Ce +... + Cne’nt, (3.166) 


On sait que cette fonction change de signe pas plus de n — 1 
fois et compte, par conséquent, dans le cas général, n intervalles de 
signe constant. Mais |” égalité (3.164) permet d'obtenir à tout instant 
la grandeur & (t) associée à la valeur À, (?). La figure 3.19 montre que 
À = œ (u) ne peut changer de signe que lorsque x passe par saut du 
domaine u <7 —M dans celui où w > + M, ou inversement. Lors- 
que la pente # des portions linéaires est suffisamment grande, les 
valeurs correspondantes de u sont égales à + M et — M. De cette 


10% 
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façon, le nombre total des intervalles de constance de u = + M 
ne dépasse pas 2. Nous avons démontré ainsi le théorème des n in- 
tervalles. 

Un exemple intéressant de synthèse d'un système de commande 
optimal d'une pile chimique est donné dans [3.32] (cf. également 


4 
= M 
a Sn Re — : de 
{ “1 
nf 21 
/ | 
- M, SE | 
YF 97 
| 
4 D  Ÿ 
Fig. 3.21. 


L 


13. 33]). Le: problème consiste à minimiser la durée de la réaction, 
ce qui correspond à la productivité maximale de la pile. 

Soit la pile B (fig. 3.20) qui contient le mélange de trois compo- 
santes, dont les concentrations relatives sont notées y, y et z. La 
somme des concentrations relatives est égale à l'unité; par consé- 
quent 


jet (3.167) 


Au cours des réactions chimiques dans B ces concentrations va- 
rient des valeurs initiales ÿo, Yo, ze jusqu'aux valeurs finales yr, yr, 
z. Le temps nécessaire pour atteindre ces valeurs dépend des lois 
qui régissent pendant la réaction la température T et la pression P 
dans la pile. Il faut concevoir un organe de commande À susceptible 
de réaliser une modification optimale des paramètres de commande T 
et P pour rendre le processus” le plus rapide possible. 

Comme z peut être calculé à partir de l'équation (3.167) di. 


les valeurs données de y et de y, on peut considérer seulement deux 
composantes indépendantes du mélange y et y. Traçons le plan de 
phase de coordonnées cartésiennes y et y (fig. 3.21). L'état initial 
du mélange correspond au point M, de coordonnées yo €t Yo et l'état 


final au point M+ de coordonnées y et yr. Le point représentatif M 
qui part de M7, peut arriver en W;suivant différentes traiectoires, par 
exemple, Z.ou ?, définies par les lois de variation de T'et de P. Il faut 
trouver une loi (et par conséquent une trajectoire du point M dans le 
plan de phase) telle qu elle minimise le temps nécessaire pour aller 
de M, en Mt. 
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Dans le cas considéré les constantes de temps de l’organe de com- 
mande À sont négligeables par rapport au temps de la réaction. Les 
équations de la trajectoire de l’objet sont celles de la cinétique de la 
pile composées sur la base de la loi d’action de masse. Cette loi dit 
que la vitesse de la réaction est proportionnelle aux concentrations 
des substances réagissantes. Dans notre exemple les substances dont 


les concentrations sont désignées y, y et z réagissent avec l'hydrogène 

refoulé dans la pile B. Si l’on considère que 

la quantité d'hydrogène fournie à la pile par x 

unité de temps est constante, la vitesse de GE) 

diminution d’une composante quelconque du N PAR 

mélange est proportionnelle à sa quantité. PA x 

Introduisons le coefficient de proportionnali- 7 

té k affecté d’un indice convenable. (z) 
Les réactions sont schématisées par la al 

figure 3.22. La direction des réactions est indi- Fig. 3.22. 

quée par les flèches munies d’un coefficient de 

proportionnalité. Le schéma montre que la substance y se transforme 


en y avec le coefficient de proportionnalité k, et en z avec k,. À son 


tour la substance y se transforme en y avec le coefficient de proportion- 
nalité k, et en z avec k2. On peut donc écrire ce qu'on appelle d’habi- 
tude les équations cinétiques de l’objet B : 


en ES] (3.168) 
et 

du = | 

= (— Ro + ka) y + ay (3.169) 


Les coefficients k; dépendent de la température T'et de la pression 
l. La relation caractéristique des réactions chimiques s'écrit 


k; = a;P'i exp {+} | (3.170) 


où 4;, ñn;, b; sont des constantes. Si pour simplifier le problème on 
admet la température T7 constante, ce qui au fond n'est pas la meilleu- 
re façon de conduire la réaction, on a 


= A;p"4, (3.171) 


où À; sont des constantes (à — 1, 2, 3, 4). Le problème consiste 
à définir {a fonction optimale P ({) telle qu'elle minimise la durée 
de passage du système du point A7, en M£ (cf. fig. 3.21). 

Pour rendre possible la formulation du problème variationnel 
correspondent, il est avantageux de passer à de nouvelles variables 


3% 
w= À (3.172) 


CS 
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et 
g=h. (3.173) 


À l'instant initial g — In 1 = 0. À mesure que le temps t croît 
la grandeur y diminue, car diminue la concentration de la substance 
initiale. Par conséquent g croît monotonément avec le temps. Pour 
simplifier les équations nous pouvons considérer g comme une nouvel- 
le variable indépendante. 


Pour passer à de nouvelles variables, transformons d’abord l’équa- 
tion (3.168) 


1 d y 
= — it hs) + EL. (3.174) 
Compte tenu de (3.172) on a 
d 
(ny) = —(ki+ ks) + ka. (3.175) 


Etant donné que g = In y, — In y, la dernière équation se met 
sous la forme 


TE = (Er + Ko) — Han. (3.176) 
Développons ensuite l'expression de : 
dy - dy 
dw à (2 OT dE A d y fi à 
OUI a prod 
1 dy 
= (it ke) + kw]. (3.177) 


L'expression entre crochets est remplacée ici en conformité de 
(3.174). L'équation (3.169) entraîne 


1 dy 


y de — k3 — (ko + k:) LD. (3.178) 


Eu portant cette expression dans (3.177) on passe à l'équation 
D Dj, (Hs + ka — Ko — hs) w — au. (3.479) 


Après avoir divisé terme à terme les équations (3.179) et (3.176) 
on obtient 


do k3+(k1+ kg ko ha) w— kw Le 
‘dg — ka + ka — kaw = (5.180) 

L'équation (3.176) entraîne 
dt =" (3.181) 


ki + ka — kaw 
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On peut maintenant calculer la durée de la réaction ls, Car 
à l'instant initial g —0 et à l'instant final g—qg—In (4 7 #.| : 


de 
dq 


RE TT = 
0 


(3.182) 


Le problème se ramène ainsi à la recherche d’une trajectoire dans 
le plan (g, w) et d’une loi de variation de P (9) telles qu’elles mini- 
misent l'intégrale (3.182). 

Ces équations peuvent être simplifiées, car pour la réaction exa- 
minée en [3.32] ont lieu les relations 

k _ ka 


<<, Ml, Ng= Ta. (3.183) 
Le 


De plus, F< 1. Posons 


k: Cana) A1 
e=-(+)r AZ » 

- : . (3.184) 
ka 4, __ k2 __ Às EL n1 ° 
ne kg EE A3 | En ks A3 | Ri—N3 

{l vient alors 
1/n3 
P=[i rl” (3.185) 


Tous les coefficients k; peuvent être considérés comme fonctions 
de la grandeur g, qui à son tour est assujettie à g. L'intégrale (3.182) 
peut s’écrire 


g 
tt — | F (w, g) da. (3.186) 
Ô 


La grandeur w est liée à g par l'équation (3.480) que nous allons met- 
&re sous la forme 


o(w, g, w') =f(w, g) — uw = 0. (3.187) 


* d LU « LA Q s « r 
Eci w' — nr . Dans ce qui suit la dérivation par rapport à gest notée 


par un apostrophe. 

Ainsi il faut rechercher les fonctions £g (q) et w (q) qui minimisent 
l'intégrale (3.186) sous la condition supplémentaire (3.187). Pour 
trouver l'équation d'Euler composons la fonction auxiliaire 


FF = F+X(g q = F(w, g) + X (0) [f (w, g) — w’1, (8.188) 
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À (g) étant le multiplicateur de Lagrange. Pour déterminer les trois 
fonctions À, w et g on dispose de deux équations d’Euler 


- (Sr) 20) (3.189) 
ee (Sr) —0 (3.190) 


et de l'équation de liaison (3.187). En portant dans (3.189) et (:.190) 
les valeurs des dérivées par rapport à F* tirées de (3.188), il vient 


Ô à Ô0F (w, OX 
à (9) 22 LE EU 0 (3.191) 
et 
Ô OF (w, 
à (9) 2: RE + 8) 0, (3.192) 


Dans les deux nn. équations on peut éliminer la fonction 
À (g). (3.191) donne 


0F(w, g) 


Ô 
D=— en = Ve 8). (3.193) 


Ôg 
donc 
dÀ dh(q) _ db dw , Gp dg 


ag — w 09 À og dqg ww Ti, + ° 184) 

En portant (3.193) et (3.194) dans (3.191) on tin l'équation 
à ÔF (w, Ô - Ô : p 

po, g) EE EE. fo, g)-+ EE g° 20, (8.195) 


qui est une équation différentielle du premier ordre par rapport 
à g. Après substitution des valeurs des dérivées cette équation devient 


: | 1--B 
g —= (1 + D — ) ane. ———. | . (3.196) 


Les notations de (3.184) permettent d'écrire les équations (3.180) 
et (3.181) sous la forme 


Î+C 
w'=uw+ 1H (3.197) 
et 
; Aelm 
pe An. (3.198) 


La résolution simultanée des équations (3.196) et (3.197) donne les 
courbes cherchées g (qg) et w (g). À l'instant considéré la valeur ini- 
tiale w (0) est connue. On connaît également la valeur finale w — 
— w (gr), mais on ignore la valeur g (0). Or, c’est précisément cette 
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valeur qu’il faut déterminer, car connaissant g à l’instant courant. 
on peut calculer d’après la formule (3.185) la valeur nécessaire de 
la pression P. Pour obtenir g (0) il faut résoudre le problème aux 
limites. Cette grandeur doit être choisie telle que le point représen- 
tatif se déplace dans le plan (g, w) de la position initiale (g, = 0, 


DD; 2.) à la position finale (a — ps = n (2) D 


=) La trajectoire doit vérifier les équations (3.196) et (3.197). 


La valeur ft calculée simultanément d’après la formule (3.186). 
donne le temps nécessaire de la réaction. 

Dans Le prototype du calculateur utilisé pour résoudre ce problè- 
me, le choix de la valeur g (0) était automatisé, alors que les valeurs. 


courantes Yo et yo, considérées comme valeurs initiales, étaient les. 
données moyennes fournies par des appareils de mesure et introduites. 
à la main. Le choix de g (0) était guidé par une série de calculs appro- 
chés. 

Cette procédure consiste en ce qui suit. 

On intègre les équations (3.196) et (3.197) en fonction du « temps » 
qg pour une valeur initiale w, donnée et un g (0) quelconque et on. 
mesure la valeur w; à l'instant gr. Si ws — wi >> 0, c'est-à-dire si la 
grandeur w- est trop petite, il faut augmenter g (0). Cet accroisse-- 
ment de g(0) a été rendu proportionnel à la différence mesurée- 
wr — w+. Après quelques cycles, la valeur de cette différence diminue. 
pour devenir négligeable et de cette façon on définit automatique- 
ment la valeur de g (0) qui sert à calculer la valeur courante de la 
pression P, pression qu'il faut maintenir dans la pile à l’instant con-- 
sidéré. 

Les exemples traités montrent que l’application des méthodes. 
variationnelles classiques peut présenter et présente effectivement. 
un intérêt dans certains domaines de la théorie des systèmes opti- 
maux. Pourtant l’usage de nouveaux principes, comme la program- 
mation dynamique et le principe du maximum, est plus riche de- 
promesses. 


$ 3. Application de la programmation dynamique 


Les ouvrages (3.34, 3.35] traitent d’un objet linéaire ayant dans. 
le cas général des paramètres variables dont Îa réponse impulsionnel- 
le est notée g (t, t). Cela signifie que la grandeur de sortie æ (4). 
observée à l'instant f, est liée à La grandeur d'entrée u (t), (—o0 << 
<T T < t) par la relation | 

t 


x ()= À g(t, Dur). (3.199). 


— DO 
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Pour les systèmes linéaires à coefficients constants g (£, T) — 
— g(t — 7) l'expression (3.199) devient intégrale de Duhamel usuel- 
de. Dans ce qui suit, à chaque instant donné, l’état de l’objet est carac- 
térisé par les valeurs de 7 coordonnées zx,, x, . . ., &, ou par le 
vecteur x. 

Choisissons comme critère d’optimalité une certaine intégrale 
prise par rapport aux valeurs fufures du temps dans l'intervalle de 
tàat+T 

t+T 
Q = À {À (0) fa [X (0) — x (0)] + fa IÙ (o)— uto)l} do. (3.200) 


t 


Le problème consiste à choisir la valeur courante du vecteur w () 
telle qu'elle minimise la grandeur Q. L'expression (3.200) comporte 
sous le signe somme la fonction f, de la différence [X (o) — x (ol, 
où X (o) est la fonction « idéale » donnée du vecteur x; par ailleurs 
fx (0) = 0. La fonction f, de la différence [U (0) — u (0}], où U (0) 
est la commande « idéale », possède également la propriété f, (0) = 
— (. Dans ce qui suit nous posons | 


Î x () = fu (v) = LÀ. 


D'autre part, À (0) est une certaine fonction de pondération qui donne 
le poids relatif des termes f, et f,. L’intervallé d'intégration est 
pris fini du fait que dans les problèmes pratiques on peut générale- 
ment établir la valeur finie de 7, au-delà de laquelle la prévision de 
l'avenir ne présente plus aucun intérêt *). 

Dans le cas d’une commande optimale, la grandeur Q acquiert une 
valeur minimale $ qui ne dépend que de l'état de l’objet à l'instant 
<ourant £ pris pour l'instant initial. Ainsi 


SD ii do )=S [x (8), lt] = min Q. (3.201) 


U()EQU), ISOLFT 


En remplaçant Q par l'expression (3.200), il vient 
LT 
SE 4= min À {(0)/ IX (0)—2(0)1+j2 [D (0) —u(0)]} do. 
RE ? 
(3.202) 


Notons que 
S(xG+T), 44 T]—=0. (3.203) 
*) Notons qu'à l’exemple considéré est applicable le principe du maximum 


dans sa forme généralisée par A. Boutkovski aux objets régis par des équations 
intégrales (cÎ. Î3.43, 3.44]). 
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En effet, d’après (3.200), la valeur de l'intégrale Q est égale 
à zero lorsque la limite d'intégration inférieure est égale à £ + T. 
C'est pourquoi également S$ — min Q© = 0 si la valeur courante du 
temps coïncide avec l'instant final. 

De même que dans le chapitre IT, cherchons la condition d'opti- 
malité nécessaire. À cet effet divisons l'intervalle de temps de t 
à t + T en deux intervalles [<< o<Kt<+elet[i+e<o<t+ 
+ T], où 8 est petit. On a 


Sfz(t),t}= min e{A(t) fa lX (6) —2(#)1+ fu [U (6) —u ()1} + 
sente 
t+T : : : : 
+ A) AIX (6)—2(0)1+ A 10 (o)—u(5)1} do. (3.204) 
ie 
Mais la valeur minimale du deuxième terme est égale à 


SIxt(i+e), t+el: 


S'(x(i+e), t+e]— 
GET 
_ min À {A (0) fx [X (0) —x (0)] + fu [Ü (o)—u(0)]} do. (3.205) 
u(G)EQu) 

iLe<o<iLT FE 
Le deuxième terme de (3.204) peut être remplacé par S [x (4 + &), 
# + el sous la condition d'assurer la commande optimale dans l’in- 
tervalle £ + & << o Lt + T. Maintenant il faut trouver sur le petit 
intervalle { < o  t + Ee une commande optimale w (a) telle qu'elle 
minimise le second membre de l’expression 


S[x(é), t]— in [e {A (8) fe LX (6) — 2 (6)] + fa LU (6) —u (6) + 
+S{r({+e),t-+e]ll. (3.206) 


Dans l'expression (3.206) il est facile de passer à la limite pour 
£ —+ 0. Procédant de même que dans le chapitre II et développant 


S I*(#+ 8), i + el en série de Taylor, on obtient 
SIxi(é+e), ...,æ(t+e), t+el—SIx(t), €] + 


_ n = 
ôS ôS nn: 
ie Le 6 4] +2 ER. Eux (t-Le)—z(#)]. (8.207) 


Nous avons négligé ici les puissances supérieures de e. Tout en négli- 
geant toujours les puissances supérieures de €, posons 


ti (+ e) = 22 (1) + ex (?), (3.208) 
où xx (+) est La dérivée de x, par rapport au temps. Soit 
os oS . 
t S; TT ? Sep = ne , (3.209) 
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on tire alors de (3.207)-(3.209) 
S'fxit+e), t+e]—S [x (t), #1 + 88: [x (t), + 


ñn 


He D x (6) Sr, [r(#, #1. (8.210) 


k=1 
En portant (3.210) dans (3.205) on obtient 


S {x (#), t] = in, (e {A (6) fx LX (6) — 2 (61 + fu LU (0) —u (6) + 


n 


+S xt), t1+eSs[z(r), le D xt) Sa, [t(t), 21}. (8.241) 


k—1 


En éliminant S [x (t), t] des deux membres de l'égalité et en simpli- 
fiant par € on aboutit à la condition nécessaire de la commande opti- 
male sous la forme de l'égalité [cf. (2.199)] 


min {A (E) fa [X (4) —2 (#1 + fu [U (8) —u (6) + 


u(t)EQ(u) 
+ S: [Er (?), f] F2 2h (6) Sx, It (#), 41} =0. (3.212) 


Des considérations physiques rendent clair que la fonction 
À (o) > 0 tandis que les fonctions f, et f, doivent être strictement 
convexes, par exemple f, (v) = f, (v) = v*. 

Examinons à titre d'illustration l’exemple très simple d’un objet 
caractérisé par une seule coordonnée x, alors que la réponse impulsion- 
nelle g (4, +) est de la forme 


gt, D=gexp{ 5). (3.213) 


Ainsi l’objet représente un circuit apériodique dont le gain est Tig4, 
la constante de temps 7, et l'équation 


x" (t)+ 7 (£) = gau (4). (3.214) 

Soit ensuite f, (uv) = f, (v) = v?. La condition (3.212) s'écrit alors 
und () LX (8) — x + [0 (6) — u GT + 

+ S;[x (&), 4] +x" (#4) Sxfx(), 41} =0. (3.215) 


Si dans (3.215) on substitue à la valeur x’ (f) sa valeur tirée de (3.214), 
on obtient l'égalité 


min LR (IX (2 (+0 (9 —u (D + | 


u(HESXu) 


HS), 1+[au(—7-20]S:t (0, 41}=0. (3.216) 
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Supposons d’abord que les contraintes limitant la commande 
u (t) soient inexistantes et qu'elle puisse varier dans les limites 
— 00 <T y (f) LC oo. On peut alors minimiser l'expression (3.216) 
en la dérivant par rapport à et en égalant la dérivée à zéro 


_2[U (D —u(dl+ a$,lx (À, 4 = 0. (3.217) 


On en tire la commande optimale 
u* (= U (t)— ES fx (6), #1. (3.218) 


Ainsi pour rechercher la commande optimale u* (#) il faut connai- 
tre la fonction S [x (#), 4]. En portant (3.218) dans (3.216), on obtient 


RG) LX (6) — x GIF + 2 [x (6), #1 + 
+ [au site, 4-2 20] Sete (9, 4— 
LS, [x (D, H}"=0, (3.219) 


qui est une équation différentielle aux dérivées partielles. 11 faut 
trouver la solution de l’équation (3.219) qui vérifie la condition aux 
limites (3.203).- 

Remarquons que la plus grande puissance que présente x (1) 
dans l'équation (3.219) est égale à deux [le premier membre de 
l'équation comporte le terme À (#) x° (91. Ceci fait penser qu'en 
développant la fonction S (x (4), él en série par rapport à x il suifit 
également de se borner par la puissance deux. Par conséquent, posons 


S [x (4), €] = K (8 + Ki (0 x (D + Ku (8 [x (D, (3.220) 


où À (?), K, (t) et K1, (t) sont certaines fonctions du temps # qu'il 
see définir par substitution de la solution hypothétique (3.220) 

dans (3.219). Calculons d'abord S, {x (4), #l et S, [x (?), t] en déri- 
vant (3. 220) par rapport à £ et à x respectivement. On est ainsi ame- 
né à 


See (t), = K' (9 + K: (0 x (D + K (6 [x (HI. (8.221) 


L’apostrophe désigne ici la dérivée par rapport à t de la fonction 
respective. Ensuite 


Sex (0), € = Ki (8) + 2Ku (0) x (0). (3.222) 
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Portons maintenant (3.220), (3.221) et (3.222) dans (3.219) et groupons 
les termes de puissances égales de x (4) : 


(r'O+aROUO-[EkE +1 ox Er) + 
+2 (0 {Ki (+28 ui (0 U (9 — 7 Ki (9 - 
— Ki (9 Ka (8) — 22 (9 X (0) } + 
He (OP ÊA (7e Ka) — laK (OP +A()}=0. (3.223) 


Etant donné que l'équation (3.223) doit être juste pour toutes 
les valeurs de x (f), les coefficients affectés à x (7) de puissances nulle, 
première et deuxième doivent être nuls. On est amené ainsi aux trois 
équations différentielles ordinaires pour les fonctions X (t), K, (t} 
et Ke (2) : 


K'O=[ÉRE ak GU(E—-AOIX(P, (8.224) 

Ki (0 = [ge + ki (0 | Ai (0) —2giKu (EU (+ 22 (0 X (#) (8.225) 
et 

Ki = pe Ka (0) + Le Ku (TP — 2 (0). (3.226) 


Pour résoudre ces équations différentielles il faut encore connaître 
les valeurs initiales ou les valeurs frontière des fonctions XÆ (f), 
K, (t) et Ku (6). Si l'on compare les conditions (3.203) avec l'égalité 
(3.220) on voit que (3.203) n’est vérifiée pour n'importe quels x (£ + 
+ T) finaux que dans le cas où l’on admet que les coefficients 
K; (t+ T) et Ky (té + T) sont égaux à zéro: 


K,(G+T)=Ku(t+T)=0. (3.227) 
Mais alors en vertu de (3.203) on a 
K (t+ T) = 0. (3.228) 


Il en résulte que les solutions des équations (3.224)-(3.226) doivent 
satisfaire aux trois conditions aux limites (3.227) et (3.228). 

Lorsque les fonctions Æ (1), KA (t) et K,1 (#) sont obtenues, la 
recherche de la loi de commandé optimale u* (ft) ne présente plus 
aucune difficulté. En portant dans (3.218) S, tiré de (3.222) on arri- 
ve à 


ut ()=[U(—É Kaka at). (8.22) 
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Ainsi u* (t) dépend du temps # non seulement explicitement par les 
fonctions Æ1 (t), K1 (8) et U (#), mais encore implicitement par 
x (t). 

Pour résoudre les équations (3.224)-(3.226) avec les conditions 
aux limites (3.227) et (3.228) on peut faire appel à l'inversion du 
temps en considérant que 
(t + T) est l'instant initial. 


Les conditions (3.227) et dc vb. FT UR 
(3.228) deviennent alors « ini- SH) L ep xt) 


tiales » et on se retrouve de- 8 vor 
vant un problème de Cauchy 


usuel avec des conditions 
«initiales >» imposées. Il est gg j 
impossible d'obtenir la solu- 2 amp | | # el 
tion de ces équations sous 7 | _x(?) 
une forme finie car elles sont 

non linéaires. Pourtant on Xr(2) DE 
peut les résoudre d’une ma- | 

nière usuelle sur des calcu- Fig. 3.28. 
lateurs. 

La figure 3.23 représente le schéma fonctionnel d’un organe de 
commande régi par l'équation (3.229). On a montré les fonctions 
K, (8) et K,, (t} amenées à partir des calculateurs résolvant les équa- 
tions (3.224)-(3.226). La fonction K, (f) en passant par l’amplifica- 


teur de gain + donne le terme —# K, (#) qui s'ajoute dans l’ad- 


ditionneur », à U (+) appliquée de l'extérieur pour donner le terme 
entre crochets du second membre de (3.229). Le deuxième terme de 
l'expression (3.229) est fourni par. le multiplieur M. La grandeur de 
sortie de ce dernier est égale au produit des grandeurs d'entrée K,: (t) 
et —zx (t) multiplié par le coefficient constant g,. Le facteur —x (#} 
s'obtient à la sortie de l’inverseur | —{ Ê x(t) étant fourni à l'entrée 
de l’inverseur à partir de l’objet gouverné B. 


Considérons maintenant le cas de x (f) obéissant à la contrainte 
La (O Lu (D << Li EP. 


On ne peut plus tirer de (3.219) la valeur de w minimisant le 
premier membre de (3.216) puisque on risque de tomber sur une 
valeur de u* qui dépasse les limites imposées. Evidemment, les cas 
possibles sont les suivants. 

a) La solution w, (?) de l'équation (3.229), c'est-à-dire l'expression 


(= [UD ]-eku(z(, (8.230) 


se trouve dans les limites imposées. Par conséquent les expressions 
précédentes demeurent inchangées. 
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b) La solution de (3.230) dépasse La limite supérieure de w (1) 
Uo (ti) > LA (à). (3.231) 


Nous sommes dans le cas où la valeur de u* (t) minimisant le premier 
membre de (3.216) s’écrit 


De LE (De (3.232) 
c) La solution de (3.230) est plus petite que la limite inférieure 
Ug (t) << Ly (4). (3.233) 
Le premier membre de (3.216) atteint alors le aan pour 
UD LED: (3.234) 


La réunion de tous les cas fournit la loi de commande 


LE), UE) 7 La (é), 
(£) — Uo(t), Lt) <u()< Lan (t), (3.235) 
La (£), Ug < Lim (E ). 


Il importe pourtant de noter que dans ce cas les fonctions X (#, 
K\ (#) et Ku (6) ne peuvent plus s'obtenir à partir des anciennes équa- 
tions (3.224)-(3.226). En effet, l'équation (3.219), qui a servi à dé- 
terminer ces ie n'est pas applicable pour les instants où 
uo (t) sort des limites admissibles. Si, par exemple, la condition 
(3.231) est vérifiée pour un instant quelconque, donc l'expression 
(3.232) l’est également. L'équation aux dérivées partielles pour S 
peut alors s’obtenir en remplaçant x (?) dans le premier membre de 
(3.216) par l’expression Z; (#9). Dans ce cas on obtient l'équation 


À (E) EX (8) — x GP + IU (6) — La (GE) + 
| LH Six (6), l+ | gLh(t)— F x (| Sx[x(t), t1=0, (3.236) 
Portons dans cette équation les formules (3.221) et (3.222), il vient : 
{Æ' () + gli (0) Ka (0) + LU (6) — Lan (6) +2 (0) IX OP} + 
+2 (0) A (0 + 28 Li (0 Ka (6) — 7 La (0) — ZA (8 X (D} + 
+ (0 {Ah O + Eu (O+A@}=0. (8.237) 
Si les coefficients affectés aux puissances zéro, une et deux de x (t) 


sont égaux à zéro, cette équation est vérifiée quel que soit x (#). 
Ceci nous donne trois équations pour les fonctions XÆ (#6), K, (?) 
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K' (0) = — gli (9) A1 (0) — {0 (9 — Li 9} 20 IX OP. | 

Ki (= Ka (0) — 28iL (0) Ku (9 +22 (0 X (0, (3.238) 
Ki, (0) = pe Ras (8) — à (0). | 


Des équations analogues s’obtiennent en remplaçant Lÿ, (t) par 
La (® lorsque l'inégalité vérifiée est (3.233) et la commande optima- 
le est fournie par la formule (3.234). 

Ainsi les fonctions Æ (t), K, (t) et K41 (té) s’obtiennent à partir 
d’un système d'équations formé par réunion de tous les trois systè- 
mes d'équations valables chacun dans l’un des trois cas possibles a), 
b) et c) énumérés ci-dessus. Au lieu de ces systèmes d'équations on 
peut certainement écrire un système général unique dont les coeffi- 
cients varient suivant que w, (t) se trouve à l’intérieur de l'intervalle 
admissible ou le dépasse dans l’un ou l’autre sens. Ces équations 
s’intègrent pour les mêmes conditions aux limites (3.227) et (3.228). 
Pourtant pour réaliser maintenant l’intégration rapide de ces équa- 
tions avec inversion du temps, il faut adjoindre un calculateur ana- 
logique sur lequel est intégrée, également à rebours, l'équation de 
l’objet (3.214): de plus, la valeur courante de x (f) sera désormais 
« finale ». L'intégration de cette équation est nécessaire du fait que 
d’après (3.230) les valeurs de 4o(o), 4 o<<t+ T, dépendent de 
x (o). C’est pourquoi la définition de La valeur de la commande opti- 
male u* (t) à l'instant courant impose un calcul rapide préalable des 
fonctions À (1), K, (t} et K41 (6) réalisé sur un calculateur analogique 
qui « prévoit » également les valeurs futures de ces fonctions de même 
que de u* (o) et de x (0). Lorsque les valeurs de ces fonctions sont 
trouvées, la commande est réalisée d’après la formule (3.235), alors 
que ü, (t) est fournie par (3.230). 

En général, quel que soit l’objet linéaire et le critère d’optimali- 
té quadratique, même lorsque la commande u (ti) est bornée à un 
intervalle admissible, il existe une formule précise de commande opti- 
male u* (t), composée d'un nombre fini de termes. D’autres critères 
d’optimalité conduisent aux lois de commande optimale dont l’appro- 
ximation ne peut s’obtenir avec un nombre fini de termes que d’une 
manière grossière. 

La méthode examinée ci-dessus peut être généralisée aux systè- 
mes d'ordre plus élevé [3.34-8.36]. 

La programmation dynamique est un procédé très général de 
formulation et de préparation de la résolution approchée des pro- 
blèmes les plus variés. Ainsi pour l'objet dont l'équation s'écrit 


dx | | 
en) 15-299) 


11—0966 
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et qui est soumis à la condition initiale 
(cho = 20), (3.240) 


on peut demander de trouver la commande optimale u* € Q (u 
telle qu’elle minimise le maximum de l'écart x (£) par rapport à une 
certaine fonction connue x* ({) dans l'intervalle 0 Li T, où T 
est fixé. Dans le cas concerné le critère d'optimalité est de Ia forme 


Q= max |2* (1) —x(t)|. (3.241) 
OST 
Dans cet intervalle, x (t) doit être telle qu’elle vérifie la condition 
min Q = min max|x*(t)—zx(t)|—=.S (xt0)). (3.242) 
heat 


La lettre S désigne la valeur minimale de © définie par la condition 
initiale z'®. La commande w (f) appartient à un certain domaine 
admissible Q (u). 

Pour résoudre le problème (cf. [2.9]) remplaçons l'équation diffé- 
rentielle (3.239) par l'équation aux différences finies approchée 


| Tnt = Th À À (ln: Ux) À, (3.243) 
où 

m=r(kA), u=u(kA), Az (3.244) 

et À est le nombre total des intervalles élémentaires contenus dans 

l'intervalle de temps 7. Au lieu de (3.241) on peut maintenant écrire 


Q—= max [2x —z»|, (3.245) 
h—0,1,...,N 
alors que l'expression (3.242) devient 
S (x(0)) :: min Q = min max [ai — 28 |. (3.246) 
u jEf2Cu), R=0, 2, +6.) N 
j=0, 1,..., N—1 


Considérons d'abord un seul instant £ — N. Pour cet instant, 
avec x = 4°, on à 


bt la variation de la commande x n'influe en général pas sur la valeur 


de Q NX. Déplaçons-nous à rebours depuis l'instant { — NA vers ti — 
— N — {. Examinons Îa fonction 


Qu max |ai—2{—max{{aNi— rx al, ad —x |} = 
k=N-1,N 


— Max {| TN! —— Xn-1 |; [TN —Zy1 — f (Zn-1 Un-1) Â [}. (3.248) 


Ici x, est remplacé d’après (3.243). La notation max {a, b} signifie: 
la valeur maximale des deux grandeurs a et b. Avec la valeur donnée 
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de æzw-1, la grandeur Q 4, dépend de uxy_1. Choiïsissons la valeur 
de u%_1 € Q (u) telle qu’elle minimise Q$_1. On obtient alors la 
commande optimale u%_;, fonction de zy_1, zù 1, &N, ainsi*que la 
valeur minimale de © ,1: 


Sy (tn) min Or. (3.249) 
Unr_1E Qu) 


Dans ces conditions il se peut que la variation de w},_, dans une cer- 
taine marge n’influe pas du tout sur (3.248), pour peu que la première 
des valeurs dans l’accolade soit supérieure à la deuxième. On en dé- 
duit que la commande optimale est définie d'une façon non univoque. 
Convenons de définir toujours la valeur de w minimisant le deuxième 
terme dans l’accolade (3.248). 

Passons maintenant à l'instant & — (NW — 2) A. Dans l'intervalle 
de t—(N—2Aàt—NAona 


O2 = max [té—2|—max{{ti 2 —xn|, 
R=N-2, N—1,N 
max {|2N-1—2n 1, [TN —2n |}. (3.250) 


La commande w,,, n’influe que sur le deuxième terme dans l’acco- 
lade extérieure de cette expression. Si on la choisit toujours d’après 
la loi (3.249) établie plus haut, il vient 


Sn-2 (Ew-2) = min Qy-2 = min max {2% 2 — xx |, 
Un UNE Hu) un _)ER(U) 
Sy-1 (En-1)} — 


— min max {|2N-2—2x-2|, Sxy-1 (En-2 + Ÿ (Xn-2, Un») A)}= 
un _EQ(U) 
— Max {| zN 2 — LN-2 [, a D y (Zn-2 + f (Zn-2: Uny-2) A)}. (3. 201) 
UN 2 


Après avoir minimisé le second membre de (3.251), on tombe sur 
la commande optimale uf_°, etc. En reprenant ce raisonnement on 
calcule par récurrence les fonctions S y-} (xnw-») et en même temps 
la commande optimale uX_, | 


Sn-h (zv-n) = Max {| TN — LN-k [; 


min Sy-R1f (Tx-h + f (Tn-h; Un-h) * A}, (3.252) 


Ici 4 = À, 2, , N. La fonction S y; (xx) étant connue fcf. (3. 247)], 
on peut en principe trouvèr toutes Îles S'x-L ionctions, y compris 
S 9 (Zo) = So (2%). La commande correspondante uw, est précisément 
celle que nous recherchons. 

La réalisation de cette procédure n’est possible que sous une forme 
numérique et n'impose pas de calculs excessivement volumineux. 


11* 
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La programmation dynamique permet de définir la commande 
optimale lorsque le temps 7 du processus est non fixé, y compris le 
cas de la commande en temps minimal. Soit, par exemple, l'équation 
de l'objet de la forme 


4 dix ae 
1x + 2 Œi+s Fra = U (£). (3.253) 
Posons 
z = %, TS ist (Gi=1,2, so n—1). (3.254) 
L'équation (3.253) se décompose en n équations de premier uritre: 
dx; : 
mu (i=1,2...,n—1), 
ie. n : : r | (3.255) 
i= i=1 
où 
Dj, y. (3.256) 
An +1 An+1 
Soit v borné en module 
WI V. (3.257) 


Recherchons la commande optimale v (? telle qu'elle minimise le 
temps 7 du déplacement du point représentatif depuis la position 
initiale 2°, ..., 1%, donnée par le vecteur z®, jusqu'à l’origine 
des coordonnées dans l’espace de phase. 

Remplaçons l'équation (3.255) par des équations aux différences 
finies, en posant 7 — NAt, ah) == x; (k At), v® = y (k Ai): 


gt 20 As, (14,9, ...,n—1), 
n (3.258) 
a Ft D A AZ D b;r" L As. ut), 
1 


La relation définissant le temps minimal nécessaire au point repré- 
sentatif pour entrer à l’intérieur d'une sphère de petit diamètre 6, 
lorsque 4 — N, s'écrit : 


| PINS. (3.259) 


1 


. 


t 


l 


Le temps minimal T ne dépend que des conditions initiales, 
c'est-à-dire du” vecteur 2%. I1 s'ensuit que 7 —{T (x®). Le dépla- 
cement d'un pas à partir de la position initiale se fait dans le temps 
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At, après quoi le vecteur x‘ est remplacé par le vecteur x? dépendant 
de w®, Le temps minimal nécessaire pour atteindre à partir du 


point (xl) la petite sphère est égal à T (xD), alors que Le temps total 
est At + T (1x). Il est clair que 
T(x= min [AëHT (xt))] EU min [T (xt9)]. (3.260) 
Lo 0) |&V D <y 
Si l'expression de xD est développée es (3.258), il vient 
T(a®, ...,a%N=Art min Ta LA, ,., 29 + 


EME 
+ At-.x 0, 30? — At 2 b;x® L'At.u®), (3.261) 


Supposons que 7 est une fonction Pres des on x®, On a 


PPS me . min {T CM LE © 2 0 At.a®, 


y 0) ISV 


_. (—4 > brel” + Au) } Lo(At). (3.262) 


Il n’y a que le dernier terme dans l’accolade qui dépend de w®. 
Par conséquent, ce n’est que sur ce dernier que porte la minimisation 
par rapport à w®. Supprimons dans les deux membres de l'égalité 
(3.262) le terme T (x, ..., 2h); puis, après avoir simplifié par 
At et faisant tendre AÀf vers zéro, nous aboutissons à l'expression 
n—1 
0—1+ 0 x + min (an (— S b; x” + ur) À . (3.263) 
i=1 ? i=1 


Avec Af +0, il convient également de faire tendre vers zéro la va- 
leur de Ô figurant dans (3.259). En remplaçant les x£f°? par les valeurs 
courantes x;, que nous pouvons toujours considérer comme initiales, 
nous tombons sur l'équation différentielle aux dérivées partielles 
définissant 7 ” Los a vs 


x; + min {eo}. (3.264) 


LoISV 


014 9-7 Je di 


îi—=1 


En comparant (3.257) et re on constate sans peine que le 
minimum du dernier terme du second membre de (3.264) s'obtient 
lorsqu'est vérifiée la condition 


D —V sign 2. (3.265) 
ln 
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C'est précisément la loi de la commande optimale. On en déduit 
qu'il faut toujours choisir les valeurs de v (?) aux frontières du domai- 
ne admissible 


D* = + Y. (3.266) 


Nous l’avons déjà dit d’ailleurs au $ 1 du présent chapitre. 
En portant (3. es dans (3.264) on a 


_ — 
143 _. Tia — Æ ua —|. (5.203) 
—1 


= 
La solution de l’équation (3.267) doit vérifier la condition aux limi- 


tes 
(00: es, - 00: (3.268) 


puisqu'avec la valeur initiale 2° — 0, le temps nécessaire pour 
rejoindre l'origine des coordonnées est évidemment égal à zéro. 
Pour obtenir une commande optimale v* en fonction de x, il faut, 
comme on le voit de (3.265), trouver la fonction T (x), c’est-à-dire 
résoudre l’équation aux dérivées partielles (3.267). 
La solution explicite ne peut s'obtenir que pour les cas les plus 
simples. Considérons à titre d'exemple les équations de l'objet 


d d 
ein eu (3.269) 
avec la contrainte 
We < 1. (3.270) 


Il faut passer en un temps minimal du point (x{®, x®) à l'ori- 
gine des coordonnées. 
Si on remplace v par uw, l'équation (3.264) se met sous la forme 


oT ; ÔT 
— — 3.271 
O—=1+ CES Re = u} | ( ) 
et la loi de la commande optimale s'écrit 


u* = — sign —_ (3.272) 


D'après (3.266) et (3.270), la commande optimale ne prend que 
les valeurs +1. Le plan de phase (x, x) doit alors être partagé 


en deux domaines (fig. 3.13): Z; dans lequel u — —1 et Z; où u — 
== +1, Pour le premier, L;, (3.271) s'écrit 
ôT OT 


et pour Z, on a 


OT OT 
014 mt (3.274) 
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Pour résoudre ces équations il faut connaître les conditions aux 
limites sur l’une quelconque des lignes. On peut intégrer, par exem- 
ple, l'équation (3.269) considérant que x (t) varie suivant une courbe 
« rectangulaire » uw — + 1. On aboutit alors à 7 (x) pour x = 0. 

On peut montrer (cf. [3.37]) que la solution de l'équation (3.273) 
est de la forme 


T=2V Ltatas (3.275) 
et celle de l'équation (3.274) 
T=2Y/ Lat-n—m (3.276) 
En portant (3.272) dans (3.271) on arrive à 
D _ To — a. (3.277) 


Les formules (3.275) et (3.276) prises à part ne constituent pas encore 
la solution de l'équation (3.277) Cette solution a la forme 


2V rate To + Lit de, xE Li, 
T — 


: (3.278) 
2 Las — Lit, xCL,. 


Cherchons le domaine L; dans lequel est vérifiée la formule (3.276). 
À cet effet, portons dans la formule (3.277) les dérivées partielles 
du second membre de (3.276), c'est-à-dire 


oT — 1 


ÔT …: Lo 
EA Pa — $ Bas = pa À. (3.279) 
V 3" Vie 
Il vient 
D | TP :—11=0 (3.280) 
Van) [7/5 
Cette égalité est vérifiée pour la condition 
(3.281) 


= —_——_—— >0 
Vt-s 


ou 


ji LT >. (3.282) 
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Cette dernière condition est vérifiée avec 


XL >> 0, m+È< 0, (3.283) 
Où avec 
m<0, +i-m>0, (3.284) 


puisque la radicande ne peut pas être négative. Les conditions 
(3.283) et (3.284) entraînent que la frontière du domaine Z,, est donnée 
par les équations 


Lo O, = — TD ; 
; (3.285) 
Ta 
T0, =; 
ou, sous une forme plus condensée, 
à . 
Li—= — Sign T2 + : (3.286) 


La même frontière s'obtient pour Z; si l'on utilise la formule 
(3.275). | 

La courbe de commutation étant donnée par (3.286), la confron- 
tation de (3.283), (3.284) et (3.286) révèle que la loi optimale de la 
commutation s'écrit 

2 
ut — sign (7,+ singe À). (3.287) 

Il est vrai que pour l’exemple considéré la méthode du plan de 
phase est bien plus simple que celle de programmation dynamique. 
Pourtant, cette dernière est bien plus générale. Nous montrons dans 
les chapitres qui suivent qu’elle est également applicable à l’étude 
des problèmes statistiques. 

La programmation dynamique peut s’employer non seulement 
dans le cas des systèmes échantillonnés dans le temps (systèmes 
continus à états discrets), mais aussi pour les systèmes purement 
discrets, échantillonnés dans le temps et en amplitude [3.38]. Dans 
les systèmes de ce type les valeurs des grandeurs ne peuvent pas être 
quelconques ; elles doivent appartenir à un ensemble fini des niveaux 
admissibles. 

On admet habituellement qu’ à l’i-ième instant le système peut. 
se trouver en état s;. Il existe un nombre fini d'états possibles du 


système, désignés par qi, . .- ., Im Ou Simplement par 1, ..., m. 
L'état s; peut être l’un des nombres g, . . ., 4m, Ce qui peut se noter, 
comme nous venons de le dire, par l’un des nombres 1, . .., m. 


L'action extérieure u; peut aussi prendre l’une des valeurs possibles. 
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Posons, pour plus de simplicité, qu’il n'existe que deux valeurs pos- 
sibles de u,, notamment 1 et 0. La loi de variation des états est donnée 
par la relation 


Stay — f (s;, U;). (3.288) 

On admet souvent que la grandeur de sortie x; est une fonction 
discrète de s; et de u; 

Ti = Ÿ (si, wi). (3.289) 


Pour simplifier, la grandeur x; est identifiée dans ce qui suit à s;. 
c'est-à-dire la relation (3.289) devient 


L; —= Si. 


Le système discret est alors caractérisé par une seule fonction de 
deux variables x; et u;: 


Lis = f (mi, ui), (3.290) 


que nous obtenons en remplaçant s; = x; dans l’expression (3.288). 

La relation (3.290) est souvent représentée sous la forme d’une 
table ou d’un graphe (cf., par exemple, [3.25], chapitre XV). Soit, 
par exemple, le système susceptible de 
prendre quatre états matérialisés par des 
cercles sur la figure 3.24 (les numéros des 
états sont indiqués par les chiffres placés 
à l'intérieur du cercle). Le passage d'un 
état à un autre est marqué sur le graphe 
par une flèche, à côté de laquelle on a 
figuré l'une des valeurs possibles de 
u; — 0, { associée au passage consi- 
déré. Par exemple, la figure 3.24 mon- 
tre que lorsque s, = 2 et u; — 1, Le sys- 
ième passe à l'état Sixy = 9; mais 
si s; = 2et u; —0, la flèche conduit de s;, = 2 à s;4, = 1. 

Il est possible que l’état du système ne change pas. Par exemple, 
si s; — 4 et u; — 1, l'état reste Le même, ce qui est figuré par une 
flèche en boucle. 11 en est de même pour 
Sy; = et u; = 0. 

Cette relation peut être traduite par 
une table à deux entrées u; et s; en: 
portant dans chaque case de cette table: 
la valeur correspondante de s,,,. La table 
qui correspond au graphe de la figure 3.24 
est donnée ci-contre. 

Par exemple, pour s;, — 3 et u; = 0, 
OR à S;ty — 2. 

Soit à l'instant initial i — 0 le système se trouve en un certain 
état initial s5. Supposons que le processus soit considéré aux instants. 


Fig. 3.24. 
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discrets i = 0, 1, ..., N où N est fixé. II faut rechercher une suite 
des commandes us, uw, . . ., un telle qu’elle maximise une certaine 
fonction donnée p (sx) de l’état final sy. C'est un problème typique 
de la théorie des systèmes optimaux, où le critère d'optimalité est 


Q = p(sx). (3.291) 


Il est clair que la fonction œ (sx) doit être donnée sous la 
forme d'une table. Soit, par exemple, la fonction @ (sy) carac- 
térisée par la table ci-contre. 

Dans les systèmes discrets, la méthode 


| °w | | de programmation dynamique se présente 
nu ————| sous sa forme la plus pure. Il est commode 

CNE AS =] 9 de l'illustrer par un graphe (fig. 3.25). 
Figurons d’abord, l’un sous l’autre, les 


cercles qui matérialisent quatre états pos- 
sibles s, à l'instant . Ces cercles forment la colonne droite de la 
figure 3.25. La colonne du milieu représente quatre états possibles 
Sy_-1 à l'instant N — 1; enfin, la première colonne à gauche indi- 
que les états sx, à l'instant N — 2, etc. La figure 3.25 ne compte 
que trois colonnes; dans le cas général 
les colonnes sont au nombre de N + 1 | 
correspondant aux états Sy; Sw1 + + + So- g 2 O7, i 
Commençons par la première colonne € 
de droite. Près des états 1, 2, 3, 4 on / 
a écrit les valeurs correspondantes de EL / EC x po? 


® (1), p (2), o (3), æ (4) données par la 

table de œ (sx4). Déplaçons-nous de sy : à ë 

vers Sxy-1 Ooit, par exemple, l’état du S Ÿ; Î @), 
système Sxy_1 = 1. Utilisant la table ou I Ne 

le graphe de la figure 3.24 cherchons une ne 


valeur de uw, telle qu'en partant de 2 2 2 
Sr = À on puisse obtenir la plus grande | 

valeur possible de s,. Avec ux_1 = 1 Fig. 3.25. 

on as, — 4 à quoi correspond œ (sx) = 2. 

Or, si l’on pose un _1 = 0, il vient s4 — 1 et @ (sy) — —1. On en 


déduit que la valeur optimale de u,,_, est 1; dans ce cas s'effectue 
la transition de sy; — 1 à sx — 4. Cette transition assurée par 
une commande optimale est figurée par la ligne allant de sy 1 = 1 
à sy — 4. Le chiffre À marqué sur la flèche correspond à la com- 
mande optimale uÿ_1 = 1. 

Traçons de la même façon les autres flèches qui relient Les états 
Sy_1etsSn associés aux commandes optimales pour différentes va- 
leurs «initiales » de $ ;., égales à 1 ; 2; 3; 4. Ces flèches portant les 
valeurs des commandes optimales relient chacun des états possibles 
Sn 1 à l’un des états sN+. On assure ainsi fa possibilité de maximiser 
le critère d’optimalité @ (sy) pour chacune des valeurs « initiales » 
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de Sxy_1. Si par exemple, Sxy_4 = 4, la commande optimale uÿ4 — 
= 1 permet d'effectuer la transition en même position sy — 4, 
après quoi la fonction œ (sy) devient égale à 2. Cette valeur du cri- 
tère, maximale pour la condition « initiale » considérée sy_1 — 4, 
est notée près de l’états,_., par le chiffre 2. Les chiffres correspon- 
dants doivent être écrits près de chacune des valeurs de sx_1 — 
1, 2, 934. 

Déplaçons-nous ensuite à rebours de sxy_1 à sw_2 pour obtenir 

sur le même dessin les flèches reliant chacun des états possibles 
Sy-2 = 1, 2, 3, 4 avec l’un des étatss,_1 dans le cas d’une comman- 
de optimale u_ Près des états « initiaux » s,_2 il faut porter les 
valeurs maximales possibles de  (s,). En reprenant cette procédure 
PDOUT Sxy_3, Sy-4r EtC., On arrive enfin à s,, ayant construit un réseau 
de stratégies optimales correspondant à toutes les conditions initia- 
Jes possibles. 
__ Par exemple, avec N = 2, sy-2 = 5. La figure 3.25 montre 
d'abord que dans ce cas pour la position initiale s, = 8 il faut choi- 
sir d’abord la commande optimale uwy_2 — u9 — 1 qui conduit 
à Swy-1 —= Si — 3, Puis Uy_1 — Ui — Ü, Ce qui amène le système 
en Sy — s — 2 et donne au critère @ (sy) la valeur maximale possi- 
ble Q = 5. 

La stratégie optimale n’est pas nécessairement univoque. Ainsi, 
en partant de sy_2 — À on peut emprunter l’un des deux chemins 
suivant que u y, est égal à 0 ou à 1. Si dans le premier de ces cas on 
pose üux-1— 1 et dans le deuxième également u y_1 — 1, on aboutit 
à l’état sn — 4 avec la valeur maximale possible de (sy) — 2. 
Le même cas de non-univocité a lieu quand sy_2 — 4. Ïl existe donc 
ici deux stratégies optimales à valeurs égales du critère Q 


Un -2 — : Uny1 = 1 et Uno = 0, Uni = 1. 


Ces procédés peuvent être généralisés aux cas plus complexes, 
lorsque, par exemple, les suites des commandes wo, . .., un ne peu- 
vent pas être quelconques, mais sont soumises à des conditions sup- 
plémentaires [3.381]. 


$ 4. Application du principe du maximum 


Le principe du maximum permet souvent d’établir les traits 
caractéristiques des processus optimaux se déroulant dans des sys- 
tèmes continus. Considérons à titre d'exemple le problème de mini- 
misation de la durée du processus transitoire dans le cas d’un objet 
décrit par les équations 


dx ; 


Pr — f; (Ts, Los Ln) + biu (i = Â, 2, 0) n) (5.292) 


472 SYSTÈMES OPTIMAUX À INFORMATION COMPLÈTE ÎCH. 11} 


ou, sous une forme vectorielle, 

TL f(x) + bu, (3.293) 

u étant ici l'unique commande, et x,f et b des vecteurs; de plus 
D = (by, bo, . .…, bi). (3.294) 


Les fonctions ; sont considérées dérivables par rapport à leurs argu- 
ments. 
Soit la contrainte 


u| < 1. (3.295) 
Composons les équations adjointes 
dy; : 0f a 
= — } Das Vo (3.296) 
œ=1 


Formons ensuite l’hamiltonien 
He CT D) = Fe) + bu, = (2, D+u @, D. (8.297) 


Comme seul le deuxième terme de cette expression dépend de u, 
il est évident *) que le maximum de Æ7 s'obtient compte tenu de 
(3.295) avec 


u = sign (b, Ÿ) = sign à bib; (4). (3.298) 


Pour expliciter la loi de commande il faut rechercher les Ÿ; pour 


chaque point x de l’espace de phase. Pourtant la formule (3.298) 
permet déjà de tirer la conclusion importante que pour la classe de 
problèmes considérée la commande doit reposer sur la frontière 


du domaine des valeurs possibles (3.295). Nous montrons dans ce 
qui suit que pour d'autres classes de problèmes cette condition peut 
ne pas se vérifier. 

Dans le cas particulier important d’un objet linéaire leséquations 
(3.292) deviennent 


Re » dijt; + biu (i = 4, 2; es. n). (3.299) 


Supposons que l’équation caractéristique de la trajectoire d'un 
mouvement libre de l’objet (pour w — 0) n'a que des racines réelles 


*) On suppose ici que Le cas (b, w (t)) = 0 n'a pas lieu et, par conséquent, 
les commandes dites singulières sont inexistantes (cf. [2.17, 2.21]). 
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négatives. Dans ces conditions, les équations adjointes (3.296) 
s'écrivent 


tr bi GaiVa+ (3.300) 


a=l 


d}; 
di 

Ces équations sont adjointes par rapport aux équations (3.299) 
de l’objet. On sait que lorsque les racines de l’équation principale 
sont réelles et négatives, celles de l'équation caractéristique du 
système adjoint (3.300) le sont aussi. Par conséquent, les solutions 
4; () sont de la forme 


p(t= D Cigeli, (3.301) 
1 


où p; sont réelles et négatives *), alors que les constantes C;; sont 
définies en résolvant le problème aux limites. On conclut que le 
second membre de (3.298) est aussi une somme de #7 exponentielles 


n n | nr n LE 
U — Sign > b; >. Ciel it — sign > (2 b;C:;) cu sign 2 De", 
i=1 ji j=t i—1 j=1 
(3.302) 


« 


ou 


De biC: (3.303) 


Toutefois l'expression D, D;epit passe par zéro pas plus de (n — 1) 
j=1 

fois et ne compte par conséquent pas plus de n intervalles de signe 

constant. 11 s'ensuit que dans le cas général la commande x compte 

aussi » intervalles de signe constant, ce qui achève la démonstration 

du théorème des » intervalles. 

La commande ne repose pourtant pas toujours sur la frontière 
du domaine admissible. Considérons, par exemple, un objet défini 
par l'équation (3.299) avec les contraintes (3.295) dans le cas où le 
critère d'optimalité s'écrit (cf. 13.391: 


Q — | (5 a;x3 + cu?) di, (5.504) 
0 


ji 


où tous les a; et c sont considérés positifs. 


.. -*). On peut considérer, sans affecter la généralité, que les racines p; sont 
différentes. ve 
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Posons 
n \ 
ft: mu) ) as -Eoui, 
j=1 
LL (3.305) 
fi (1, ss Ln u) = 2 dijt; + biu | 
CEE A n). } 
ÀAjoutons aux coordonnées 1, . .., x, de l’objet encore une, 
Zo, donnée par l'équation 
= f, (ts... Zn u), %0(0)=0. (3.306) 


D'après (3.304), la valeur de © devient alors égale à la limite de 
Zo () pour £ — co. Composons le système des équations adjointes 


n r 
dPo di ôf | 
di me Te Ve Zarbori— } a ji; 


a—0 


(i=1,2,...,n). (8.307) 


Maintenant on ee écrire l’expression pour l’hamiltonien 


n=S Va 7 a - = D vu es Zn; u) = 


at 


= V9 (Dast+es)+ 3 > Gi jt j + bi u). (3.308) 


i—=1 


Comme la grandeur figure dans l'expression 
ñ 
H; = cou? + u à bibi, (3.309) 
9—= 


la condition du maximum de {7 coïncide donc avec la condition 


max {1, — max € [expou? + u ù W:b = 


ul <1 [ul < 


_ EVA | 
= max {n[u+i > brpi | — en [5 br |” ke (3.310) 

En vertu de la première des conditions 6.307, la grandeur Yo 
est constante. Puisque sa valeur peut être choisie parmi les nombres 
négatifs quelconques (cf. chapitre I1), posons 


Vo = —1. (3.311) 
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En portant cette expression dans (3.310) on découvre aisément. 
que l'expression dans l’accolade est maximale lorsque, si c’est possi- 
ble, le premier terme, négatif, devient nul ou est minimal en valeur 
absolue. On voit sans peine que la grandeur 


Lu + > bp | (3.312) 


est égale à zéro ou est minimale en valeur absolue si, pour [u| < 1, 
on choisit 4 comme suit: 


n 
| ; 
LDu si 
i—=1 


Lis brbe|< 1 


41 
1 n 
; 1 “ 
1; S1 De > bi; < 1 
i—1 


Les ; (ti) deviennent connues si l’on résout les équations adjoin- 
tes (3.307). Mais pour ce faire il faut rechercher d’abord les valeurs 
initiales Ÿ; (0). 

Supposons d’abord que u(t) n’atteint pas ses valeurs frontières. 
En remplaçant dans les équations (3.299) et (3.307) w (t) par la pre- 
mière expression ie (3.313), on a 


\ 
= dti 
73 _S Œijtj + e > bi, | 
Fr | (3.314) 


Mi ut tir ssen) 


j=n 
Ce système d'équations doit être résolu avec les conditions ini- 
tiales x (0), ze (0), . . ., x, (0), ainsi que avec les conditions aux 
limites (finales) 
lim 2 (6) = lim x, (f) =... = lim zx, (#) = 0. (3.315} 
L->co t->00 t->00 


II faut sélectionner les 1; (0) (i — 1, 2, ..., n) de la sorte que soient. 
vérifiées les conditions initiales de même que les conditions finales 
pour x; (#). 

Il est montré dans [3.39] que les valeurs recherchées de w; (0} 
sont associées aux x; (0) par des relations linéaires 


v; (0) = À vit; (0) (1,2, ...,n), (3.316) 
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où y;,; sont des constantes. Tout instant pouvant être pris pour iuitiul, 
en général, dans ce problème pour n'importe quel instant 


ut = — >, k;x:;, (3.417) 
i—1 
où 
Lt 
ki D by. (3.318) 
j=i 


Par analogie avec (3.313) on supposait {3.28, 3.39] que dans le 
ças général la loi de la commande optimale s'écrivait 


1 1 | 
LS, si E  Hail<i 
i=1 1— 
! ñn 
2—= 
1 ñn 
— 1, si D k;x; << —1. 


Mais cette hypothèse s’est trouvée fausse [3.48]. La loi de comman- 
de (3.319) n’est strictement optimale que dans les cas particuliers, 
où le point représentatif, après avoir rejoint le domaine délimité 
par les hyperplans 


1 : 1 
LDbr= +1, D km —1, (3.320) 


i—=1 i—=1 


n’en sort plus pendant son mouvement ultérieur. 

Dans [3.401] et [3.41] est décrite la théorie et sont donnés les résul- 
tats de l’étude d’une commande asservie à deux paramètres de com- 
mande. Le système est voisin d’un système optimal à temps minimal. 
Le problème a été résolu par l'application du principe du maximum. 
Il semble que ces ouvrages sont les premiers à appliquer le principe 
du maximum aux problèmes techniques. L'objet de commande est un 
moteur à courant continu à excitation indépendante. Le moteur reçoit 
deux commandes. La tension VU, en est une, elle est amenée à l’entrée 
de l’amplificateur rotatif (AR) qui alimente le circuit de l’induit du 
moteur. L'autre commande est la tension U: qui alimente la bobine 
d’excitation du moteur. La conduite est assurée simultanément par 
les deux commandes Ü, et U. 

"”"gL'étage de Puissance du système asservi est schématisé par la 
figure 3.26. F, est ici l'intensité de la bobine d’excitation de l’AR 
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NN 


à constante de temps T,. L’intensité de la bobine d’excitation du 
moteur présentant la constante de temps T, se note Z.. La constante 
de temps de la bobine transversale | 
de l’AR est désignée par T2, alors 
que la force électromotrice de l’AR 
est désignée par Æ£,. Soit R: la résis- 
tance totale des circuits des induits de 
l’'AR et du moteur, Q la vitesse de 
l'arbre, En = QI, la force contre-élec- 
tromotrice du moteur, 7; l'intensité de 
l’induit, Mn = Xl il.le couple de rota- 
tion, J le moment d'inertie réduit à Fig. 3.26. 

l'arbre du moteur, À la position angu- 

laire de l'arbre de sortie. Nous négligeons l'induction dans les cir- 
cuits des induits, la réaction de l’induit et le couple résistant sur 
l'arbre du moteur. Les équations du schéma de la figure 3.26 peuvent 
alors s’écrire 


dÀ dQ | 

7 = 69, Jr = kalile, 
di al | 

Ti + la= ki, To Ta + La = koUo, ? (3.321) 
dE 

Ts tEç=kda Eg—Qie= LR; 


©, kys ko, ka, k, sont ici les gains constants des circuits. Si 71 & 
& T;, après les transformations et la réduction au temps relatif, 
le système des équations de l’objet de la figure 3.26 se met sous la 
forme 


dx do 4 5 .2 
& = Le, ar Ip letu— Gi, 
des a | (3.322) 
nr“ — Pieg + bits, AE Boie + Bou. 
Dans ces équations nous avons noté 
X E 1 
max “g Max e Max 
Q U; U» 
@ = Hi — 
Qmax : U} max U; max 
j à T L é 
ém em 
P4 — Ta , Bo me Ts * U (3 923) 
JR g max 
É ne — — 
kacFe max Egnom _ 
— Ji nomAti 4 : 
n— E nom + j 


12—0966 
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Les indices « max » et « nom » sont affectés respectivement aux 
valeurs maximale et nominale de la grandeur intéressée. 

Dans les équations (3.222) de même que dans [3.40], nous avons 
gardé la notation { pour le temps sans dimension; nous avons pris 
pour unité de base la constante de temps électromécanique Pis 

La tension VU, ne peut pas dépasser en valeur absolue la valeur 
maximale admissible. D'autre part, on ne peut pas diminuer excessi- 
vement la tension U/, au risque de provoquer l’emballement du mo- 
teur pour un faible couple de charge. C’est pourquoi u, et u2 sont sou- 
mises aux contraintes 


us LT AK ur K1, (3.324) 
où À — const >> 0. 

Considérons la réponse transitoire à l'écart initial, équivalent 
au saut À, de la consigne, où À, est une constante arbitraire. [ntro- 
duisons de nouvelles coordonnées associées aux anciennés par les 
égalités 


ie 
Li AG 7; == — C0, T3 = —Cgs Xi le. (3.920) 


Portons ces expressions dans (3.322), il vient 


dx { ; “ur Re AXaT y — LT? 
dt 2? dt 1e Ô de Fe P 
; " (3.326) 
= ne _ Pas — Biu, = bé Buz. his 
où 
+. (3.327) 
" ei LY 


Soient les valeurs initiäles x; (0) (& — 1, 2, 3, 4): Recherchons 
les commandes optimales u, (4) et u2 (4) recalant le point représenta- 
tif à zéro en temps minimal: Le point zéro est défini par les coordon- 
nées (0, 0, O, y} où À << y << 1 est un certain nombre fixé. 

Les équations (3.326) EE être mises sous la forme vectorielle 


GER, (3.328) 


où zx et f sont les vecteurs dont les composantes sont données par 
(3.326); les composantes du vecteur u sont Us et uw», alors que B 


est :uñe matrice rectangulaire ..: -.# 
| ses Le 0 0 ss 
pe : 0:0 sn 
B =" Shots M 3.329 
0 Ba 
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Composons le système des équations age 


d ; d 
#4 — 0, Pr = = Yi + 2, | 


V3 — — Ta Ve + Bas, | (3.330) 


spa — (2ror— as) a+ Baba. 


Formons l’hamiltonien 
1%, 5), Fi + Bu = (4 F)+@, BD). (8.331) 


Dans cette expression seul le second terme déperid de &. Ecrivons-le 
sous une forme développée 


Gp, Bu) = —1# (4) Bas + a (Bous. (3.332) 


Il en résulte, compte tenu de (3.324), que le maximum de H a lieu 
sous Îles conditions suivantes : 


Ui = —sign Ÿs (6) (3.333) 
et 


FAR, si pat) <O. 


Ainsi, si la commande optimale existe, elle est composée de plü- 
sieurs intervalles dans chacun desquels les actions u; et u: sont main- 
tenues à l’une de leurs valeurs limites. 

Pour expliciter la loi de la commande optimale, il faut connaître 


le vecteur en chaque point z de la trajectoire optimale. Comme nous 
l’avons constaté au chapitre IT, dans le cas général, la résolution du 
problème aux limites correspondant n’est possible qu'à l’aide des 
calculateurs. Mais dans certains cas la synthèse d’un système opti- 
mal peut être réalisée par la méthode analytique. Considérons le 
cas le plus simple, quand les constantes de temps 7:.de la. bobine 
transversale du générateur et T, de la bobine d’excitation du moteur 
sont négligeables par rappoñt à Tem, constante de temps électromé- 
canique (dans [3.40 et 3.41] sont traités des cas plus complexes). On 
‘a alors Bi = © et B2 == © et les équations de l’objet deviennent 
_ = Lir A = — UÏT2 + UiUo. (3.335) 

Les contraintes imposées à Uy et us S ‘expriment toujours par lés 
conditions (3.324). Le pee sapins S écrit maintenant . 


12% 


(3.334) 
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Formons l'hamiltonien 


H = (ps f(x) = Pate + Pa(—uËte — œuqus). (3.337) 


Les solutions des équations (3.336) sont 
Yi () = 10 = const, 


V2 (t) = exp { ui (r) dr} [ro — ÿoexp {— (9 ds} ar]. 
| | (3.338) 


Cette dernière expression montre que 12 (f) ne peut changer de 
signe qu'une seule fois. 

Les grandeurs w, et « de la formule (3.337) étant toujours positi- 
ves, le choir de u, maximisant 77 entraîne l'expression 


Us —= — Sign 1» (#). (3.339) 


Pour élucider la loi de commande pour w> (?) mettons la formule 
(3.337) sous la forme suivante: 


= 12 + Ve [2 (u + 2e, |" + a] (3.340) 


Deux cas sont possibles. 

a) Vo (8) O0, u, = +1. Avec x2 >> 0 la grandeur w, doit prendre 
également sa valeur maximale, égale à l'unité. Maïs si x << 0, on 
voit alors de (3.340) que pour maximiser A il faut prendre. 


. Œ 
1, si a > 1, 
_. . œ 
Us — 21e? SI 13 | x» | Less 1 (3.341) 
. 
CORMnORTATE 
b} Ve (6) => O0, ui = —1. La maximisation de À avec x > 0 
nécessite alors | 
| À, si D > 1, 
sn Pl si << 1, (3.342) 
: œ 
U À Si 7 À. 


“Mais si 2 << 0, la valeur de (ue 
sible et pour cela il faut poser Us = “e 

Comme 12 (f) change de signe pas plus d’une fois, w4 (£) en géné- 
ral est composé de deux intervalles au plus, dans l’un d'eux uw, = +1 


mn.) doit être la plus grande pos- 
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et dans l’autre u, — —1. La courbe w> ({) en comporte quatre. Trois 
d’entre eux correspondent au premier intervalle de z, et le quatrième 
au deuxième intervalle de w;. D’après la première ligne de (3.341), 


u) est maximal dans le premier intervalle. Dans le deuxième inter- 
valle uw» varie en permanence et parcourt le segment [A, 1] [cf. les 
deuxièmes lignes des formules (3.341) et (3.342)]. Dans Le troisième 
intervalle w> — À. Enfin, dans le der- 

nier intervalle l’action 2 doit prendre Uj, Us, ZX, 

de nouveau sa valeur maximale, pour 
qu'à la fin de cet intervalle, quand 
xz = &2 = 0 l’hamiltonien À devient 
maximal. 

Les trajectoires optimales dans le 
plan de phase sont représentées sur la 
figure 3.27 et les courbes approchées 
Us (é), ue (6), x () sur la figure 3.28. 
Seulement deux trajectoires optima- 
les aboutissent à l’origine des coor- 
données. L'une d'elles, désignée 
LA, correspond aux valeurs 

— —{, uo = +1, l’autre, notée L', correspond à u, — +1, 
se — +4. À ces trajectoires aboutissent les trajectoires des famil- 
les Z: et L,. Considérons, par exemple, la trajectoire typique 
MoMiM2M; qui mène à Z;. Tout le domaine situé à gauche de la 
courbe de commutation L;, L° est relatif à 4 — —1, alors que tout 
le domaine à droite de cette courbe est caractérisé par uw — +1. 
Ainsi, l’action de commande uv, subit une seule commutation au 
cours du processus de régulation, ce qu'on a représenté sur la figure 
3.28. Quant à u>, la loi de variation de cette action est plus complexe. 
Traçons dans le domaine w; = —1 deux droites horizontales D, 
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(droite Lo =+) et Do (droite Lo = 7) . Les droites analogues dans 

le domaine u,— + 1 sont désignées D; (droite Z2 = —5.) et D, 
s œ 

(droite La = — al 


Si le point initial M, se situe dans le troisième quadrant, il so 
déplace suivant la trajectoire optimale M,M1M2M,0. Sur la portion 
M,M,M2M, de cette trajectoire, ui = —1 et sur M,0, ui = +1. 
Sur la portion M,M\ la valeur de u2 = 1, sur la portion M,M;, 


entre les droites D, et D>2, us varie selon la loi = 5. Au point M: 
2 


la valeur de u: devient égale à À et se maintient à ce niveau jusqu'au 
point W,, où les deux grandeurs, u, et uw: changent brusquement de 
valeur, uw, devient égale à +1 et se maintient à ce niveau sur La por- 
tion M0. 

Dans le cas de la trajectoire optimale MM,M:MW:0 issue du point 
MW, situé dans le premier quadrant, la variation de w; et uw: est analo- 
gue, à la différence que sur la portion MM/M;M, on a u = +1 
et entre ÏZ; et O u; = —1. La valeur de z varie de la même façon 
qüe pour la trajectoire M,M,M,M,0. Les courbes approchées de varia- 
tion de x; (f), u2 (t) et u, (t), ce dernier étant représenté en pointillé 
x une échelle différente de w>, sont montrées sur la figure 3.28. 
Ils correspondent à la trajectoire MM,M:M:0.: On distingue sur 
la figure 3.28 deux intervalles de la courbe u, (?) et quatre de la 
courbe uo (#). 


CHAPITRE IV 


SYSTÈMES OPTIMAUX À INFORMATION INCOMPLÈTE 
MAXIMALE SUR L'OBJET COMMANDÉ 


$ 1. Systèmes continus à information maximale 
sur l'objet 


Dans le chapitre Î nous avons donné la définition des systèmes 
à information complète et incomplète sur l’objet commandé. Nous 
<onsidérons que l'information sur l'opérateur F de l’objet et le cri- 
tère final © de la commande est toujours complète. Dans ce chapitre 


nous adoptons également que l'information sur l’état x de l'objet 
est aussi complète. Autrement dit, | 
les renseignements sur l’état de 5 NX 
l'objet B sont canalisés vers l’orga- -À 
ne de commande À par le circuit de 
réaction sans perturbations. Suppo- 
sons, de plus, que Ia consigne x* 
et la perturbation z sont mesurées Fig. 4.1 
également sans erreur et appliquées DRE 
à l'organe de commande À. L’orga- 
ne À peut mesurer sans erreur et mémoriser ses valeurs de sortie u. 
Considérons le système schématisé par la figure 4.1. L'organe de 
commande reçoit la consigne x* et la perturbation z préalablement 
mesurée (flèche en pointillé). Supposons maintenant que l’une des 
actions æ* et z ou les deux ensemble sont des processus aléatoires. 
Même la connaissance parfaite de la « préhistoire » de ces processus 
pendant le temps t, —oc << Tt <'t, où t est l'instant courant, ne 
rend pas possible la prévision de leurs valeurs futures: Il en résulte 
que l'information sur l’objet gouverné conservée dans l’organe de 
commande À est incomplète. 
Il convient de noter que la mesure de la perturbation z peut être 
réalisée de deux façons. 

a) Mesure directe. Dans ce cas le trait interrompu de la figure 4.1 
doit être remplacé par un trait plein. La perturbation z ‘est mesurée 
par un appareil de mesure quelconque et le résultat est transmis à 
l'organe de commande À. Nous considérons l’ erreur de mesure. négli- 
geable. 


184 SYSTÈMES OPTIMAUX À INFORMATION INCOMPLÈTE [CH. IV 


b) Mesure indirecte. Dans plusieurs cas z peut s’obtenir par une 
voie indirecte, en mesurant les valeurs de z et de x fournies à l’orga- 
ne À [4.1]. En effet, soient les équations de l’objet B de la forme 


dx; SRE + r 
= fi (2, ua) et: mn), (4.1) 


où z est un scalaire. Examinons l’une des équations (4.1), par exem- 
ple la première: 
dx 


= fs (x, u, z). (4.2) 


Soit f: la fonction univoque et monotone du scalaire z, quelles que 


soient les valeurs de x et de u. En mesurant les x; dans un intervalle 
infiniment petit ou en dérivant x; dans un dérivateur parfait, on peut 
trouver en principe avec une erreur aussi petite que l’on veut la va- 


4 ns 
leur de la dérivée <i et, par conséquent, la valeur de jf; (x, u, 2). 


Connaissant x et u, on peut définir z. 
Si un système sans mémoire (sans inertie) est décrit par l'équation 


TL, F (u, 2), (4.3) 


où Fest une fonction monotone de z, les valeurs courantes de x et de 


u permettent de définir également la valeur de z. Par exemple, dans 
le cas le plus simple 


z = œ(u) + 2, (4.4) 


la grandeur 3 est égale à x — œ {u). Il est évident que dans de nom- 
breux cas il est possible de mesurer plusieurs composantes de la 


perturbation z. Ainsi nous considérons que x et u sont mesurables 
sans erreur et que l'opérateur F de l’objet est également bien connu 


et permet de définir z à partir de x et . Nous sommes alors dans le 
cas où le résultat d’une mesure indirecte ne se distingue en rien de 
celui d’une mesure directe. 

Dans ce qui suit nous poserons qu’à un organe optimal s'applique 
le principe d'utilisation complète de l'information qui peut être énoncé 
sous la forme suivante : 

Un organe de commande optimal utilise pour la commande toute 
l'information qui lui est fournie. Bien entendu il ne s’agit là que de 
l'information utile. | 

La formulation des problèmes de commande optimale doit être 
vérifiée à La lumière du principe d'utilisation complète de l’informa- 
tion disponible. Il se peut qu'un énoncé à première vue correct donne 
lieu à des inexactitudes. Ces inexactitudes peuvent être de deux types. 
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a) Redondance d'information ou excès de structure. Considérons le 
schéma de la figure 4.2,a. Un appareil spécial mesure la perturbation 


z et envoie le résultat à l'organe de commande À. Mais si dans le 
système une mesure indirecte de z est possible, la chaîne de mesure 
entre z et À est alors inutile. L'information qu’elle canalise est excé- 
dentaire et l'organe de mesure 
lui-même est superflu dans la 
structure générale. 

b) Utilisation incomplète de 
l'information. Supposons que 
la perturbation z se mesure 
avec une erreur ou qu'un 
bruit aléatoire e vient entâ- 
cher le résultat de mesure 
lors du passage du signal par 
le circuit Æ (fig. 4.2,b). Sup- 
posons données les caractéris- 
tiques probabilistes de e et 


de z. Supposons également 
qu'on peut mesurer indirecte- 
ment et avec une précision 


suffisante la perturbation z. 
Dans ce cas la chaîne de me- 
sure et le circuit Æ sont super- 
flus de même que l’infor- 
mation sur les caractéristiques 
probabilistes du bruit e. Ce- 
pendant ce serait une erreur 
de se borner aux informations 
sur z fournies par le circuit Æ 
et de considérer, de plus, que les renseignements dont dispose 
l’organe de commande À sur la perturbation z sont inexacts. Une 
telle formulation du problème est en contradiction avec le prin- 
cipe d'utilisation complète de l’information. La même contradiction 
survient si la chaîne de mesure directe de z est absente et si l’on admet. 
que l'organe de commande ne dispose que d’une information a priori 
sur la perturbation z (par exemple, sur la densité de probabilité a prio- 
ri de la variable aléatoire z), alors qu'il est possible d’en réaliser 
une mesure indirecte précise .Si zest une variable aléatoire, sa valeur 
dans les systèmes de ce type devient connue avec précision peu après 
le démarrage du système. En remplaçant la valeur précise par une 
répartition probabiliste a priori on risque d'’altérer sensiblement. 
les performances du système qui se trouve loin d’être optimal. 
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Dans des systèmes réels aucune grandeur ne peut être mesurée 
avec une précision absolue. Tous les systèmes de transmission ou de 
traitement de l'information donnent lieu à des bruits... C’est, par 


exemple, le bruit g dans le circuit G réunissant À à B (fig. 4.2,0) 
ou le bruit À dans le circuit Æ du circuit de réaction (fig. 4.2,d). 


Dans ce cas la mesure indirecte précise de la perturbation z est impos- 
sible et le circuit de mesure directe Æ peut fournir une information 
supplémentaire sur la perturbation. Dans chaque cas concret on éva- 
lue la valeur de cette information supplémentaire et on décide s'il 


est nécessaire d'introduire le circuit de mesure directe de z dans le 
système. 

Une question se pose : est-il nécessaire pour la commande opti- 
male de disposer dans tous les cas d’une information complète sur 
l’objet? Et notamment, si la commande optimale devient beaucoup 
moins efficace à cause de l’absence de l'information sur la perturba- 
tion z? Du point de vue pratique, cette question est très importante 
car le plus difficile est souvent d'obtenir une information sur la per- 
turbation z ou, ce qui revient au même, sur les caractéristiques aléa- 
toires du système gouverné. Il s'avère que dans certains cas l'infor- 
mation sur la perturbation z est inutile pour définir la commande 
optimale. Soit, par exemple, le système décrit par les équations 


À 
de . (4.5) 
zx F (v,2), J 


où la perturbation z est constante au cours du processus transitoire, 
, | 6F. 
alors que F est une fonction monotone de v; de plus, > 0. Adop- 


tons une contrainte sous la forme | 4 | & ÜU. Supposons qu'il faut 
réaliser un système optimal à temps minimal, où est minimisé le 
temps nécessaire pour éliminer l'écart (x* — x), où x* — const. 
Dans le système décrit par les équations (4.5), la commande optimale 
s'écrit 


u* = U sign (z* — x) (4.6) 


et ne dépend pas de la valeur de z. C'est pourquoi l'information sur 
la perturbation z est ici excédentaire. 

Pourtant, les exemples de ce genre sont très rares et dans un cer- 
tain sens dégénérés. Dans la grande majorité des cas, la mise à profit 
de l'information sur la perturbation améliore le résultat de la com- 
mande. 


Si la consigne x * et la perturbation z se mesurent avec précision 
et sont des fonctions régulières du temps, un intervalle infiniment 
petit de temps suffit pour établir avec précision les valeurs futures 
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de ces fonctions. Dans ce cas nous sommes ramenés aux systèmes 


à information complète sur l’objet gouverné. Pourtant si x* et z 
sont des processus aléatoires, l’organe de commande, comme nous 
l'avons déjà dit, ne dispose plus d’une information complète sur l'ob- 
jet. Deux cas peuvent alors se présenter. 

a) Dans le cas général on peut, en observant la « préhistoire » 
du processus aléatoire, accumuler une information supplémentaire 
qui permettra d'estimer avec assez de précision ses valeurs futures 
et de remplacer les caractéristiques probabilistes a priori par des 
caractéristiques a posteriori. Les systèmes de ce type sont rangés dans 
la classe des systèmes à accumulation de l’information sur l’objet. 
Ils sont étudiés dans les chapitres qui suivent. 


. b) Dans le cas particulier, lorsque x* et z sont des processus aléa- 
toires ou markoviens et lorsqu'on mesure avec précision leurs valeurs 
courantes, l’accumulation de l'information n’a pas lieu. En effet, un 
processus strictement aléatoire se distingue par ce que ses valeurs 
futures ne dépendent pas du passé. C’est pourquoi, si l’on connaît 
la caractéristique probabiliste a priori du processus, la connaissance 
de sa « préhistoire » ne fournit aucun renseignement supplémentaire 
sur ses valeurs futures possibles. Nous n'examinons pas le cas où 
cette caractéristique est inconnue et la connaissance de la « préhis- 
toire » permet de l’évaluer et ceci avec une précision d'autant plus 
grande que le temps de l'observation est plus grand. Si x* et z sont 
des processus markoviens, leurs valeurs futures ne sont associées 
qu'à leurs valeurs courantes et La connaissance de la « préhistoire » 
de ces processus ne donne aucune information supplémentaire. Alors, 
dans ce cas aussi l’accumulation de l’information n’est pas nécessaire 
non plus. Dans les cas qui viennent d’être traités, l’information 
maximale possible sur l’objet est fournie à l’organe de commande À si 


les mesures précises des valeurs courantes de x* et de z sont transmi- 
ses à son entrée. El est naturel d'appeler les systèmes de ce type sys- 
tèmes à information maximale (mais incomplète) sur l'objet. 

Dans [4.2] sont décrits certains types de processus aléatoires appli- 
qués à l’entrée des systèmes de commande automatique. Nous ne trai- 
tons dans ce qui suit que des processus strictement aléatoires et mar- 
koviens aléatoires. Plus généralement, un processus markovien peut 
être considéré également comme le résultat du passage d’un proces- 
sus strictement aléatoire par un certain système dynamique. Soit 


l'équation d’un tel système à sortie z et à entrée Ë 


— 


az ce RE 7 
Les coordonnées y; du vecteur Gi=1,...,m) sont ici cer- 


taines fonctions, en général, non linéaires, de leurs arguments (qui 
peuvent être considérées comme dérivables). 
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Posons que le vecteur Ë est le vecteur d’un processus strictement. 
aléatoire amené à l'entrée du système décrit par l’équation (4.7). 


À l'instant donné on ne peut conclure sur les valeurs futures de Ë 


que d'après la densité de probabilité a priori connue P (€). L’obser- 
vation d’un processus strictement aléatoire ne donne aucune infor- 
mation nouvelle. Pourtant, à un certain instant futur la valeur de 


z dépend non seulement des valeurs futures de Ë, mais également de 


la position du point représentatif z dans l’espace de phase de dimen- 
sion m du système (4.7) à l'instant courant. Par conséquent, la den- 


sité de probabilité de la grandeur z à l'instant futur (4 + +) dépend 
de la valeur de z à l’instant courant £. De plus, [a connaissance de la 
« préhistoire », c’est-à-dire des valeurs de z aux instants passés, 


D) 


n’ajoute rien à l'information sur la marche future du processus z. 


Il est donc évident que z est un processus markovien. 

Si on ajoute les équations (4.7) aux équations de l’objet, on ob- 
tient un système « équivalent » qui subit l’action d’un processus 
strictement aléatoire £ (4). | 

La différence importante entre les problèmes examinés dans ce 
chapitre et ceux du chapitre précédent consiste également dans la 


nature du critère d'optimalité. Les grandeurs d'entrée z* et z intro- 
duites dans Le système étant des processus aléatoires, la grandeur de 


sortie x de l’objet B et la commande w le sont aussi. Par conséquent, 
si l’on choisit un critère d’optimalité primaire quelconque Q@; — 
— Q, (x*, x, u, z), Q, est également une grandeur aléatoire qui. 
change d’une expérience à l’autre d’une façon imprévisible. Pourtant, 
le critère d’optimalité définitif Q ne doit pas être une mesure aléatoi- 
re de la qualité du fonctionnement du système. C’est pourquoi on 
adopte généralement comme mesure © soit l'espérance mathémati- 
que du critère primaire @,, donc Q = M {Qi (x*, x, u, z)}, soit 
la probabilité du fait que le critère Q, sera suffisamment petit (infé- 
rieur au seuil imposé), soit encore le seuil Q tel que l’événement 
Q, <Q ait la probabilité imposée. 

Dans le cas général, Q, est une fonctionnelle des processus z*, 
x, u, z dans un intervalle de temps fini ou infini. Dans ce qui suit 
nous examinons un problème plus restreint, où l'intervalle de temps 
est fini. Soit 1, & ft K T, de plus, les valeurs de f, et 7 sont fixées. 

Soit l'équation simple de premier ordre 


ef (su, 1) +8, (4.8) 


où Ë est un processus strictement aléatoire. Figurons d’abord le pro- 
cessus € (4) sous la forme d’une suite discrète des grandeurs gaussien- 
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nes aléatoires indépendantes de moyenne m (x, tj et de variance 
6? (x, t)/At. Soit At l'intervalle entre les échantillons. 

Pour At 0 on obtient à La limite un processus strictement aléa- 
toire à variance infinie. [Il convient de noter qu'un bruit blanc, pro- 
cessus aléatoire stationnaire de densité spectrale constante S (w):— 
— $, (cf. chapitre II), a également une variance infiniment grande. 
En eftet, en substituant S4 à S, (©) dans la formule (2.94) on obtient 
la variance du bruit blanc sous la forme 


Kx (0) = | Sod® — oo. (4.9) 


Le processus & () de moyenne m (x, ?) et de variance 0? (x, t)/At, 
décrit plus haut, est non stationnaire puisque ses caractéristiques 
dépendent du temps {. Par conséquent, il peut être considéré comme 
une généralisation du bruit blanc normal. 

Pour de petits At, (4.8) entraîne 

Az = fAt + EAï. (4.10) 

La répartition de la grandeur ËAt est évidemment aussi normale, 

2 
sa moyenne est mAt et. sa variance _. (At)? — o*At. 
Ainsi 


À __ (GAi— mAr)? 
PE exp { ne }. (4.11) 

La densité de probabilité conditionnelle de l'accroissement Ax, 
x et ? étant fixés, s'obtient en remplaçant dans (4.11) £Aï par son 
expression tirée de _. 


P(Az|x, t)— (Az — ETS | 


+P je 20?Ai 


Ainsi la densité de probabilité de l'accroissement Ax dépend de 
æ et de é, puisque f, m et o* en dépendent. Par conséquent le proces- 
sus x (t) est markovien. 

Soit maintenant le critère primaire 


(4.12) 


T 
Q= À G (x, u, t) dt. (4.13) 
to 
Le critère statistique Q se met alors sous la forme 


Q=M{Q}=M {cts u, dt}. (4.14) 
to 
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En effet, x (t) est un processus aléatoire. Par conséquent l'inté- 
grale ©, est également une grandeur aléatoire et pour l'obtenir il 
faut rechercher l'espérance mathématique 

de’ la grandeur Q.. 
a) | L'interprétation physique de la gran: 
deur © peut être la suivante: même si la. 
x ommande choisie w (i) n’est pas aléatoire, 
le processus x (t) est quand même aléatoire. 
de C’est pourquoi les trajectoires dans l’espace 
x de phase, dans l'intervalle de temps &, << 
/ <Tt<T, seront différentes pour des expé- 
Er riences différentes. L'« éventail » des trajec- 
| Tr toires possibles est montré sur la figure 

T 


4.3, a. Si l’on mesure À G dt sur chacune de 


- Ê û . to . , 
D ces trajectoires possibles et si l’on prend 
2. To ensuite la moyenne arithmétique, on obtient. 


o-m{Îca. (4.15) 
to 


Fig. 4.3, 


Pour définir la commande optimale u* (4) considérons l'intégrale 
(4.13) et découpons-la en deux intégrales. Si Af est petit, on peut 
représenter cette intégrale sous la forme suivante: 


F to+At T 
Jeu, t) dt — À G{x,u,t}dt+ | G(x,u,t}dtæ 
to | to -to+At | 
 G (mor Un to) A+ | Gr utdt. (4.16) 
_. to+At : 


Le premier terme est transformé ici aux infiniment petits du 
deuxième ordre près. Supposons: pour le moment que pour une certai- 
ne valeur w, fixée (fig. 4.3,b) un déplacement donné Ax s’effectue:en 
un temps At. Considérons par la suite que lorsque # => 0 + At, 
on a une commande optimale: L’espérance mathématique condition- 
nelle A7” de l'intégrale (4.16) sous la condition que Az soit donné 
s'écrit alors 

T 
M' {| G{x, u, 1) dt} — G (to, Uo, to) AË + 
T 
+ min M. _. G(æu. dt}. (4.17) 


‘uEQ(u). a ne 
to-AISEET to+ Ai 
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Les indices sous le signe « min » signifient que la minimisation 
se fäit par rapport aux commandes admissibles quelconques x (t) 
dans l'intervalle de (£, + A) à T. 

Notons Q* la valeur minimale de Q. Elle dépend de xs, valeur de 
x à l'instant i = t, 


Q% (x to) = . M {| G(x, u, t) at}. (4.18) 


SCT 
Avec cette notation GAT s'écrit 


T 
M' { | G(x,u,t) )dt} = = G (os Us to) At + Q* (co Az, to+ At). (4.19) 
do 
Mais en fait l'accroissement Ax est aléatoire. C’est pourquoi la 
valeur réelle de © (xs, to) doit être l'espérance mathématique de 
l'expression (4.19), la moyenne W,. étant prise sur toutes les valeurs 
possibles de Az. On a 


Q (to: to) = Max {G (to U6> Lo) A + Q* (xo + A, t5 + At)} = 
= (G (To, Up: Lo) Aë — Max {Q* (to + Âx, Lo + Aë)}. (4.20} 
La valeur minimale Q* de la grandeur © s'obtient pour uw, — 
= (U};=i 


Q® (Xos Lo) = ne | {G (tor.Uo; to) AEH Max {Q% (ro + Az, 9 + At)}} (4.21 
upEsAtUu 

ou, sous une forme développée, 

Q* (ro lo) — ‘min Go dos to) At + 


un£Q(u) 
Fete | Q® (to Az, to Aë) P (Az |x5; to) dQ (Aa) + :… (4.22) 

Q(Ax) ec 2. 
où P (Az xs, to) est la densité de. probabilité conditionnelle donnée 
par (4.12). Non seulement le premier, mais encore le‘ deuxième 
terme dans l’accolade (4.22) dépend de uw, du fait que P (Ax)xs, to) 
en dépend par l'intermédiaire de f [cf. (4.8) et (4.12)I. Ici Q (Az) 
est le domaine de toutes les valeurs possibles de Az et dQ" (Ax) est 
son élément infiniment petit. 

En général, on peut écrire dans l'équation: (4:22) .non:pas' xs, t5; 
mais x, {, car n'importe quel point courant-peut être.considéré com: 
me initial. Alors, au lieu de u, nous figurerons dans cette équation 
u —'yu (t),c 'est- à-dire une.valeur courante. Là formule (4. 20) devient. 


Q*(x,t) = min. {s z; ls {) GAS 
. (JEU) | Se ee 
L ES * nn. QU (rie LE a. ia). (4.23) 


RAD ce ee net 
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Notons que P est une densité de probabilité et, par conséquent, 


P (Az|x, #) dQ (Az) —1. 
Q(Ax) 


Pour passer de la relation intégrale (4.23) à l'équation diffé- 
rentielle aux dérivées partielles on procède de même qu’en physique, 
dans la théorie de la diffusion, ou en mathématiques, dans la théorie 
des processus markoviens 14.23, 4.24, 2.1]. 


Décomposons Q* sous le signe somme en série en nous bornant aux 
termes du deuxième ordre 


| OO" (2 0Q* Q* (Az)? 920* 
QF (x + Az, EH A) = Q* (a, D + AT + A+ ES + 


(4.24) 


(AD? 820* PQ% 
Sr pe AGE +... (4.25) 


Portons (4.25) dans (4.23). Compte tenu de (4.24), on a 
Q*(x,t)— min {G(a, u, t) AtL Q% (x, + 


u(t)eQ(u) 
6Q* de. 
ua © | AxP (Ax|x, +) d@ (Ar) + A4 + 
Q(Ax) 
CR À At)? 62Q* 
12 À (Aa P (Al, D dQ (4e) + 0 + 
Q{Ax) 
92Q* 
HA | AeP(Azle Da(a+...). (420 
(Ax) 


Remarquant que les espérances mathématiques de Ax et de Az? 
sont respectivement 


\ AxP(Azix,t} dti (Azx) == fAt+ mAt, 
Q(Ax) 
(4.27) 
(Az) P (Ax]z, t) déà (Az) — d'At + (nAt}} = o?At, 


R(Ax) 


nous obtenons à partir de (4.27), après des simplifications que nous 
omettons ici, à la limite pour At —0 


| _0Q"* 02 d2Q* 
= min {GG un, DH U+m) SE + (4.28) 


Les autres termes disparaissent, leur ordre étant (Af)°. 

En recherchant la solution de l'équation (4.28) on peut trouver 
Q* et en même temps la commande optimale u* (4). Cette méthode se 
généralise sans aucune modification (cf. [4.37]) aux systèmes d'ordre 
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plus élevé d'équations 
Pi 


= /; (Xi, ...s Tn) + E-0;; (=, Sel, sem) (4.29) 
où ; est un nombre constant de l'intervalle 1 & j & n et 6; est le 
symbole de Kronecker 
Li 4.30 
lo 2er C0) 
Soit £ un processus strictement aléatoire de moyenne m et de 
variance D L'’équation aux dérivées partielles qui se déduit de 
même que dans ce qui s'écrit dans ce cas 


6 = 


20 2 min {CGu9+ D (môy+1) + LEON, (30 


uEQ(u) — 2 6 


Aux équations (4.29) on peut ajouter également l'équation du 
type (4.5) qui décrit l'obtention d’un processus markovien à partir 
d’un processus strictement aléatoire. L'ensemble des équations 
(4.29) ainsi complété décrit un système « équivalent ». 
Considérons l'exemple élémentaire du système décrit par l’équa- 
tion 


Oz] 


A LL. (4.32) 


La consigne, notée x2, est un processus markovien obtenu en sor- 
tie d’un circuit à inertie recevant à l’entrée un processus strictement 
aléatoire ë de moyenne m = 0 


= ot t. (4.33) 


Les équations (4.32})et (4.33) peuvent être considérées comme équa- 
tions d’un certain système « équivalent » qui reçoit à l'entrée l’ac- 
tion Ë. Soit le critère d’optimalité 

T 
Qi= | [(x1 — 22)" + u°] dé. (4.34) 
to 

L'expression (4.34) montre que dans le cas idéal il faut que x; — 
— 2, C'est-à-dire que la grandeur de sortie x, du système soit égale 
à la consigne x. Soit, ensuite, m — 0. L'équation (4.31) s'écrit alors 

0Q* 


0Q* , 0? d2Q*+ 
Sr {(m—2) +? Hu . D }. (4.39) 


Si la grandeur u ne subit aucune contrainte, on minimise sans peine 
le second membre en le dérivant paf.rapport à w et en égalant à zéro 


13—0966 
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la dérivée 


80* 

Qu + a — 0. (4.36) 
On en tire la valeur optimale de u* 
1 0Q* 

= 5 LE. (4.37) 


Si l'on porte (4.37) dans (4.35), il vient 


0Q* 8Q* \2 00% , 62 02Q* 
Ôt ns.) E. 0x, | 2 61 * (4.38) 


1 
— — — pN2 — — 
(T1 — 22) 4 
Dans cette équation il est commode de passer au temps « rétro- 
grade » t en posant t = 7 — {. Alors, au lieu de (4.38), on obtient 
#42 2 92 
6Q* 4 f 80 ) _ 00% 10 FO" (4.39) 


— De _ HR se Ste PRES. ER 
(A a) z (SE 2 Or, | 2 01 


Les conditions aux limites sont naturellement les suivantes : 
Q*(x, 7=:0)—0 pour tout x, | 


= 5 (4.40) 

Q*(xz, T)— 00 pour |x|— 00, 

|æ|étant ici le module du vecteur x dans le plan de phase. En 

effet, avec t = 0, on a to — t — T et l'intégrale (4.34) s’annule. 

La solution de l'équation (4.39) peut être recherchée, de même 
que dans le chapitre IIT, sous forme de la série 


Q* (x, 7) = Hot) + D ke (x) 21 + 
+ D ki (ri) aies + D D D Hijm (T) Lititme (4.41) 


Les fonctions ko, k;, k;;, k;:;n ne dépendent ici que du temps. En 
portant (4.41) dans (4.39) et en égalant les coefficients des termes 
respectifs des premier et second membres de l'égalité, on peut éta- 
blir que seuls #, (x) et k;; (t) diffèrent de zéro, on peut choisir en outre 
k;; — k;;. On obtient ainsi des équations différentielles ordinaires 
pour les fonctions k, (r) et k;; (Tr) de même que dans le chapitre III. 
Ces équations doivent être résolues pour les conditions initiales 
ko (0) — k;; (0) — 0 qui découlent de (4.40). Dans [4.3] sont construi- 
tes les courbes des fonctions ko, #41, Kio, Koo du problème considéré ; 
par ailleurs, (4.41) montre que 


O® (1, ao, T) = ko (T) + kua (T) 2% + ko (T) date + hoa(t)as. (4.42) 


Ces courbes sont reproduites sur la figure 4.4. 
Les formules (4.37) et (4.42) donnent la loi de commande optimale 


UY = —kus (t) 1 — ki (tr) 22. (4.43) 
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Le schéma fonctionnel de l'organe de commande optimal À cons- 
truit d'après l'équation (4.43) est représenté sur la figure 4.5. Le 
bloc D est construit d’après l’équation (4.33). Recevant à l'entrée 
le processus £ strictement aléatoire, le 
bloc délivre à sa sortie le processus mar- , 
kovien x2 qui représente la consigne pour ° 
l'organe de commande À. Bien entendu, #, 
dans un système réel Le bloc D n'existe 
pas, il ne figure sur le dessin que pour 
rendre compte de la structure du proces- 


sus markovien x2. Le signe « | » dans le 


schéma est employé pour figurer Île cir- 
cuit intégrateur. Le bloc D peut être 
considéré comme une partie du système 
« équivalent » qui comporte les blocs 
B et D. 

L'objet B est un intégrateur à grandeur de sortie x, [cf. (4.32)]. 
La commande x est élaborée dans l’organe de commande d’après 
l'expression (4.43) sous la forme d'une somme de signaux de sortie 


Fig. 4.4. 


Fig. 4.5. 


de deux multiplieurs M1 et 12. Les coefficients —k411 (+) et —k,2 (7) 
amenés aux entrées des multiplieurs sont fournis par le calculateur 
C' où ils sont élaborés conformément aux courbes représentées sur 
la figure 4.4. Il faut tenir compte du fait que t — 7 — t, où test le 
temps réel qui varie de és à T. 

D'une manière analogue on peut définir la commande en temps 
minimal. Soit l'équation du système d'ordre nr; les équations du 
système « équivalent » s’écrivent 


Pi f;(r, u, à (=1...,n+m), (4.44) 
413% 
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où E est un vecteur strictement aléatoire à densité de probabilité 
imposée. Notons que les coordonnées x; du système « équivalent » 
comptent également les coordonnées de la perturbation z; produite 
par le bloc de dimension m, et que l'équation (4.44) comporte le 
processus strictement aléatoire &. Recherchons la commande opti- 


male w qui recale en temps minimal le point représentatif x de 
l’espace de phase de dimension (n + m) du système « équivalent », 
depuis la position initiale x) à l’origine de l’espace de phase, 
c'est-à-dire dans le sous-domaine x, = 42 — ... — x, de l'espace 
de dimension (n + m). Comme Ë est un processus aléatoire, le temps 
T de transition est également une grandeur aléatoire et on peut 
prendre comme critère d'optimalité l'espérance mathématique 


Q = M {T}. (4.45) 


Ensuite, au lieu du recalage du point représentatif à l’origine 
des coordonnées, il est opportun de considérer qu'il atteint un cer- 
tain voisinage de l’origine, décrit par exemple par l'inégalité 


n 
à x$ LÔ?, (4.46) 
= 
où Ô est suffisamment petit. 

Éxaminons deux positions voisines du point représentatif: æ à 
l'instant tet x + Ax à l'instant f + At, où At est petit. Soit Q* (x) 
la valeur minimale de l'espérance mathématique du temps de tran- 
sition 7 si le point représentatif part de la position x. De même, 
Q* (x + Az) est le temps de transition minimal lors du départ du 
point zx + Az, alors la somme 


At+ Q* (x + As) (4.47) 


donne l’espérance mathématique du temps 7, si dans une direction 


quelconque on fait le premier pas Ax défini, tandis que tous les 
autres pas sont régis par une stratégie optimale. L'existence d'une 


perturbation aléatoire Ë rendant en fait aléatoire la grandeur Ax, 
la grandeur définie par l’expression (4.47) est également aléatoire 


et l'espérance mathématique Q (x) de cette grandeur s'obtient en 
prenant la moyenne sur l’ensemble de toutes les valeurs possibles 


de Az, ce qui se note par l'opération M,-: 
Q(x)= M,z{At+Q* (&+ Az)}. (4.48) 


La commande optimale u* (4) à l'instant { s'obtient si l’on con- 
naît à cet instant le minimum de © (x) par rapport à la commande w. 
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Ce minimum est égal à Q* (x). Ainsi 
Q*(x)= min Q(r)= min M,={At+Q*(x+Ax)} — 
uEQ(U) UER(U) : ” 
= At+ min M,=-{Q*(x+Ax)}. (4.49) 
uEQu) 
Si l’on désigne par P (Axz|u, x) la densité de probabilité con- 


ditionnelle de Ax, u et x étant fixés, l'égalité (4.49) se met alors 
sous la forme développée suivante : 


Q* (&)= A+ min | Q*(z+ A7) P(Azlu, z)dQ (Az). (4.50) 
uEQU) a4S 


* 


De cette égalité on passe sans peine à l'équation difiérentielle 
aux dérivées partielles pour Q* (x). Développons Q* (x + Ax) en 
série en négligeant les infiniment petits d'ordre supérieur au deu- 
xième 
Q* (z+ Az) — Q* (x) + 

n+m ; 20 
+ 
Fe 2 = As + Si es Me Aa... (4.51) 


i, j—1 


En portant GS) dans (4.50) et compte tenu de ce que 


À P(Axlu, 2) dQ(Ax)=1, (4.52) 
Q(AX) 
on obtient l'égalité suivante : 


Q"(=A+ min {Q*(@)+ 


UE) 
n+m 
> 7 À Ax;P (Ax lu, x) dQ (Ax) + 
= R(AX) 
n+m 20% _—— : 
+ > EE | Az; Ax;P (Ax|u, r) dQ (AT)} . (4.53) 
î, +1 Te 


Supprimons Q* (x) dans deux membres de l'égalité, divisons 
les deux membres par Af ct introduisons les notations 


At0 Ai ce 
rs LL L LU (4.54) 
lim | AxiAz;P(Ax | u, x) dQ (Ar) = bi; (u, 3). 


Q(AXx) 
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Il est clair que a; sont les valeurs moyennes des vitesses de varia- 
tion de Ax;, c'est-à-dire les valeurs moyennes des Ax;/At, et que 
b;; sont les vitesses moyennes de variation des produits des grän- 
deurs Az; et AÂr;. Avec i — j, la grandeur b;; est la vitesse moyenne 
de variation du carré de Ax;, c’est-à-dire la valeur moyenne des 


Car . Avec les notations de (4.54) l'équation (4.53) s'écrit 
ue ag». 
O—1+ min (2% DE ai (Us &)+ s" Fe du 7) } . (4.55) 
UEQ(u) î, j—1 


C’est justement l’équation différentielle aux dérivées partielles 
recherchée dont la solution doit vérifier les conditions aux limites 
[cf. (4.46)] 

Q* (x) =0 avec D ri Ô? et pour tout æn;; (j—1,...,m). 


(4.56) 


Considérons le cas particulier d’une action unique u. Les équa- 
tions (4.44) du système « équivalent » sont de la forme 


Pi — }; (x, E) LB; (E)u (i—1,...,nr+m). (4.57) 


Parmi les coordonnées x; il y a ici également les coordonnées 
de la perturbation, qui figure sous la forme de sortie d'un système 


dynamique recevant à l'entrée un processus strictement aléatoire Ë. 
On peut alors, avec une approximation poussée aux infiniment 
petits de premier ordre, écrire l’accroissement Az; 


Ati=fitr, E) A+; (ÉjuAt (i=1,...,n+m). (4.58) 
On en tire la valeur moyenne de Az; 


M {Az;}= ai (u, x) At=At[M {fi(e, E)}LuM {fi (Ë)}]. [(4.59) 


et la valeur moyenne du produit des accroissements 
M {Az Ax;}= bi; (u, x) At = 
= (A6) M {fi Ce, à) +uf (I [5 (x, 9) +up; (O1 = 
= (AL) (M Li (æ, €) f5 (x, Eu {M If: (6) f; (æ, Ô1+ 
+ MB; © : @, DD + M IR: © B; ED. (4.60) 


Si les fonctions de corrélation du second membre de l'égalité (4.60) 
sont finies, ce qui peut ne pas avoir lieu comme nous l’avons montré 
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plus haut, les b;; sont infiniment petits et, par conséquent, dispa- 
raissent de l'équation (4.55). En se bornant à ce cas et en portant a; 
tirés de (4.59) dans (4.55) on aboutit à l’équation 


n+m 
0=1+ min D SIM (à, D}-+uM {BE (4.60) 


UE Qu) i—1 


Si uw est assujetti à la condition 
[ul 1, (4.62) 


le second membre de (4.61) est minimisé par rapport à w lorsqu 


u=u#=—sign Ÿ = M {B: (®)}. (4.63) 


i—1 


C’est la condition d’une commande optimale. On en tire que 
dans le type de systèmes considéré la valeur optimale u* repose 
toujours sur la frontière du domaine admissible et de ce fait est 
égale à +1. 

En portant (4.63) dans (4.61), il vient 


M{B:®}|. (4.64) 


nm . D n+m 5Q* 
0—1+ Ÿ 3e M {hi (x, D} —| à 0%; 
=) Fi 


En résolvant cette équation pour les conditions aux limites (4.56) 
et en portant la solution obtenue dans (4.63) on peut trouver la 
commande optimale u* sous une forme explicite; il se trouve de 
plus que c’est une fonction des valeurs courantes de x; (i — 
= 1,..., n + m) dont font partie, comme nous l’avons dit dans 
ce qui précède, les perturbations z;, si seulement elles constituent 
les sorties des circuits du système « équivalent ». 


$ 2. Systèmes continus à états discrets 
et systèmes discrets à information maximale 
sur l'objet 


La procédure de résolution des problèmes relatifs aux systèmes 
continus à état discret, c'est-à-dire aux systèmes échantillonnés 
dans le temps, coïncide en principe avec celle exposée au paragraphe 
précédent. La seule différence consiste dans ce que les équations 
différentielles de l’objet sont remplacées par des équations aux 
différences finies ; de plus, après l'obtention de la relation intégrale 
pour Q*, on ne passe pas à l'équation différentielle aux dérivées 
partielles. [llustrons cette procédure sur l'exemple d’un système 
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du premier ordre très simple décrit par l'équation 


Teri = OU + Ur + Ëp, (4.65) 
où a = const et x, = æ(kAT), u, = u (kAt), E, = E (kAË). 
processus dure V cycles (k = 0, 1, ...,N), où N est imposé, 


alors que la durée d'un cycle est égale à At. Soit E; le processus 
discret gaussien strictement aléatoire de moyenne nulle et de varian- 
ce 6°. Etant donné que (4.65) entraîne 

Êr = Ænts — TR — Up, (4.66) 


la densité de probabilité conditionnelle de x,+: est définie par 
l'expression 


__ À (Th21 — Tr — up)? 
P (th1|Tr, Ur) = VE exp {—{ on pie #00 
Supposons que le critère d’optimalité s'écrit 
N 
Q—M Di (ri + db}, (4.68) 
i=0 
où À? — const. Il faut choisir une suite optimale u5, wi, . . ., Un 


telle qu'elle vérifie la condition Q — min. Les grandeurs uw, ne 
sont soumises à aucune contrainte. | 

L'équation intégrale pour ce problème s'obtient dans la forme 
de l'équation (4.22) et par des raisonnements analogues. La diffé- 
rence consiste dans le fait que GAï est remplacé par (A2zxE + ui) 
et O* (x, 1) est noté Q* (x,), puisque dans (4.65) et (4.68) le temps # 
n’est pas présent explicitement. D'autre part, Q* (x + Ax, ft + At} 
est remplacé par Q* (xp41) et P (Ax) par P (zes1). Ainsi, pour le 
problème considéré, l’expression (4.22) se met sous la forme 


Q* (cr) = min [(?xé + ur)? + 
uk 


+ À Que) (mul un) (ml, (4.69) 


où Q (x.) est la partie de la somme (4. 68) dei =kài— NN, alors 
que Q* est le minimum de © par rapport à u. 

Si l’on constate que — 00 << xy << © et si l’on porte dans (4.69) 
l'expression de P (x,+1) sous la forme (4.67), l'égalité (4.69) devient 


Q* (xr) = min | (Ari +uf) + 


UR 


Q*(GR+1) (Th44 — Th — ur 
+ Les ve exp { — Ent Mt Gruss |. (4:70) 
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Connaissant O* (zx) on peut trouver de (4.70) par récurrence 
les fonctions Q* (x,). Puisque (4.68) entraîne 


Q® (zx) = min {AFIN + uW}, (4.71) 
Un 


après avoir calculé la valeur optimale uñ =0 et l'avoir ‘portée 
dans (4.71), on a 
Q* (an) = Ma. (à.72) 
Plus généralement, soit 
Q® (rre1) = Au + Brutkts, (4.73) 
(4.70) donne alors 
Q* (ax) = min | (Ari +ui) + 


#R 


F Ana + Bath 4 (ch41— GT — ur) | 
+ j TE exp À — AE dr ]. (4.74) 


Posons 
Th41— AR — Ur — W, 


dTha — di. ) 7e) 


L'intégrale de (4.74) se transforme alors comme suit : 


Ê Aniit Bas (war + ur)? 
j at matencn as {Edo 


__ An+1+ Bh4s (arr + up)? n w? 
o Vèn J EXP ee Eu 


Eh { c w? 
an RNN) sl W EXP {— T5 } dw+ 


+ Î u? exp {2 r) dw. (4.76) 


Substituons les valeurs des intésrles 


[ exp {7} dw = © V 2x, 


— 00 


[ w exp {— = } dw=0, À (4.77) 


| w? exp {— Dr} du 0 V 2x. 
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L'intégrale (4.76) devient égale à 


Ar + Brun (arr + un) + 0° Br, (4.78) 
et toute l'expression (4.74) peut s'écrire 
Q (ta) == min Mr + uk + Any + Br (arr + ur)? + oBr, 1] — 

UR 
= min [(K7+ Bac) ré + An + Bu + 
U 
+ UË (1 + Bh41) e 2Bruotaur]. (4.79) 

Si (1+ Bus) >> 0, l'expression (4.79) à un minimum qu'on peut 
obtenir en égalant à zéro la dérivée dQ* (x:)/dur 


2Uh (1 + Br1) + 2BroTr = 0. (4.80) 
Ainsi la commande optimale 
» Bha1T 
= — (4.81) 


En portant (4.81) dans (4.79), on a 


2 2 GB +1 2 
Q* (en) = [A+ onu — EE | af + 
+ Any + 0 Bu = An+ Br, (4.82) 


Ag — A1 + Brut, | 


__a9 Br (4.83) 
BR TT TB 
On tire de (4.72) 
An=0, Br=À>0. (4.84) 


On en déduit que tous les B,; = 0 et donc tous les 4, >> 0. Ainsi, 
la commande optimale est définie par (4.81) et les B, par (4.83) 
et (4.84). IL est curieux de noter que la linéarité du système et la 
forme quadratique du critère font que le bruit Ë n’influe pas du 
tout sur le choix de la commande optimale. En effet, les grandeurs 
PB}, depuis By = X?, de même que les valeurs de uf, ne dépendent 
pas de o. L'existence du bruit n'intervient que dans la grandeur 
Q* (x,) qui dépend de o par l'intermédiaire de 4. 

Considérons la classe des systèmes strictement discrets et les 
‘problèmes relatifs à leur commande optimale. Ces problèmes ont 
fait l’objet des ouvrages ([4.6-4.8, 4.12]. IL est surtout intéressant 
d'étudier la commande optimale dans le cas des systèmes discrets 
markoviens. La théorie et les schémas fonctionnels de tels systèmes 
sont examinés en détail dans la littérature mathématique et techni- 
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que théorique (cf. {4.9-4.11N. Les systèmes discrets markoviens de 
même que les systèmes discrets réguliers décrits dans le chapitre III 
sont caractérisés par un ensemble des états possibles g1, go, . .. 
..., Qnas. Désignons par s, l’état courant à l'instant £. Ce peut 
être l’un quelconque des états possibles g; G = 1, 2, ..., N + 1). 
L'état s; change en général avec le temps (£ — 0, 1, 2, . ..). 

À la différence des systèmes examinés au chapitre III, le pro- 
cessus de transition du système d'un état à l’autre est aléatoire. 
Cela signifie que, connaissant son état s, à l’ instant t et la commande 
u, à ce même instant, nous ne pouvons faire qu’une prévision pro- 
babiliste de son état suivant 5:41. Toutes les grandeurs étant dis- 
crètes, posons que u, ne peut prendre qu’une des valeurs possibles 
ar (k = 1, 2,..., m). Si l’on connaît s, — g; et u,; — «x, on ne 
peut définir que la probabilité de transition de l’objet à l’instant 
suivant à un certain état g;, c'est-à-dire la probabilité du fait que 
Sy+1 Serait égal à g;. Désignons cette probabilité de transition en 
fonction de g; et &, par 


Pij (4) — p {Se+1 = Qj} St = Qi = GR} (4.85) 


Ainsi p;; (k) est la probabilité du fait que l'application de la com- 
mande «, entraîne la transition du système de l’ i-ième état g, au 
j-ième état gj. 

L'expression (4.85) impose la remarque suivante. Premièrement, 
la probabilité de transition p;; est une probabilité conditionnelle 
qui dépend de l'état s, à l'instant £ et de La commande w,. La rela- 
tion entre p;; et s, détermine Îe processus aléatoire de variation 
d'états So, 51, + + ., Sys Sstg, + « - COMME un processus markovien. 
Ensuite, la formule (4.85) n’est pas la plus générale même pour les 
processus markoviens. Dans le cas général la grandeur p;; peut 
dépendre également de l'instant f. Bornons-nous pour le moment au 
cas où p;; ne dépend pas explicitement de £. Enfin les expressions 
(4.85) pour différents à et j ne peuvent pas être quelconques. D'abord 
les p;; reposent entre zéro et l'unité: 0 < p;; < 1. D'autre part 
le système passe inévitablement de l’état s, à un autre état quel- 
conque 5,4. Dans un cas particulier, ce nouvel état peut coïncider 
avec l’ancien, mais le système passe obligatoirement à un état 
quelconque. C’ est pourquoi la somme des probabilités Pij Pour i 
considéré par rapport à tous les j doit être égale à l’unité 


NH 
D pui. (4.86) 


On dit que l’on dispose de l'information maximale sur un système 
discret markovien si l’on connaît à l'instant # son état s, et la com- 
mande d'entrée u,. Cette information est incomplète car, elle ne 
définit pas d’une façon univoque le comportement futur du système 


_ 
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mais permet d'obtenir seulement ses caractéristiques probabilistes. 
Or, en principe il est impossible de recevoir des renseignements 
plus précis sur ce système. 

Le système discret markovien est décrit parfaitement par un 
certain nombre de matrices (m au total) 


P; = || pi; (k) |] (4.87) 


des probabilités de transition pour différentes_ actions de commande 
an (4 — 1,..., m). Chacune des matrices P, peut être remplacée 
par un diagramme sur lequel Les états possibles g; ( = 1, ..., N+1) 
sont marqués par des cercles affectés d'indices j. Par exemple, sur 
le diagramme de la figure 4.6 sont montrés deux états possibles 1 
et 2. Les transitions possibles d’un état à l’autre sont indiquées 


F2 
2 


n.." 
Cale 


LA 
2 
2 
5] 
Fig. 4.6. 


par les flèches et les probabilités de ces transitions figurent près 
de ces flèches. Par exemple, la transition de l’état 2 à l’état 1 peut 


avoir lieu avec une probabilité £ et à l’état 2 avec la probabilité Ëd : 


c'est-à-dire que le système garde le même état avec la probabilité =. 


Outre les probabilités de transition, il est également intéressant 
d’étudier les probabilités d'états d’un système markovien. Désignons 
par pit) la probabilité du fait que l’état s; à l'instant t est q;, 
c'est-à-dire l’ i-ème des états possibles. Puisqu’à l'instant f correspond 
obligatoirement un état quelconque, la somme des probabilités 
Pi (t) est égale à l'unité 

N-+1 


2, pilt)=1. (4.88) 


Pour définir un processus markovien il faut imposer encore les 
probabilités d’états initiales. Si on se donne notamment un certain 
état initial, g; par exemple, cela signifie que p; (0) = 1, tandis 
que toutes les autres p; (0) sont nulles (i = j). Mais dès l'instant 
suivant la transition de l'état g; à un autre état est déjà possible. 
C'est pourquoi avec & => 0 la probabilité pour le système de se trou- 
ver dans un état déterminé est « étalée » sur différents états possibles. 

Il n’est pas difficile de déduire la formule qui permet de calculer 
toutes les p;(f + {) connaissant les p; (4) (G—=1,..., N +1) 
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à l'instant # et sachant que u — «;. Considérons l’état g; à l'instant 
(4 + 1). Les probabilités p; (4) étant connues, cherchons la proba- 
bilité de l’événement composé qui consiste à passer de l’état g; à 
l'instant £ à l’état g; à l'instant (£ + 4). La probabilité concernée 
de l'événement composé est égale au produit de la probabilité incon- 
ditionnelle pour le système de se trouver à l'instant £ en état g;, 
c'est-à-dire de p; (?), par la probabilité conditionnelle p;; (k) de 
transition de l’i-ième état au j-ième état. Ainsi la probabilité de 
cet événement composé est égale à p; (t)-p;; (k). Comme la proba- 
bilité p; (4 + 1) de se trouver en état g; à l'instant (4 + 1) est la 
somme des probabilités de transition à L état g; à partir de tous les 
états g; (Gi = 1,..., N + 1), les N + 1 égalités 


N+1 
pit+1)= à pitt}pi;(k) G—1,...,N +414, t—0,1,...) (4.89) 
sont justifiées. Ces expressions permettent d'obtenir, à partir des 
probabilités d'états initiales p; (0), les probabilités d'états p; (1) 
pour {—1. Ensuite, d’après les mêmes formules (mais, au fond, pour 
une autre commande «&;), on peut calculer les grandeurs p; (2), etc. 
_ Introduisons le vecteur des probabilités d'états (c'est un vecteur 
ligne) 


D Oh PONS Spa) (4.90) 


Les égalités (4.89) se remplacent par une seule égalité vectorielle 


p(t+ 41) =p(0 P;, (4.91) 


où P, est la matrice définie par l'expression (4.87). Examinons à 
titre d'exemple le cas où u = «, est invariable et indépendant de t. 
On a 


Aie __— | (4.92) 
p(2)= p(4) Px = p(0) P4 
et, en général, 
_P()=p(0)Pr, (4.93) 


où la matrice PE est la t-ième puissance de la matrice P,. L'équa- 
tion (4.93) donne en principe p (t) pour tout t. Soit, par exemple, 
pour le schéma représenté sur la figure 4.6 


p1 (0) — 1, pa (0) — 0. (4.94) 

Cela signifie qu’à l'instant initial £ — 0 le système est en état 1. Le 
vecteur des probabilités d'états à l'instant initial 

P (0).= (1, 0). (4.95) 
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La matrice P, s'écrit (cf. fig. 4.6) 
{ 


. Pu Piz 
Pa P2z 


(4.96) 


3 
"12 
D 
Ensuite, d’après les règles connues de la multiplication des matrices 
on trouve 


| 
D À 1 1 
P(1)-=p(0)Pr= 11,01, 3|=|5 2 (4.97) 
123 
DRE 
mn Un 1 1112 2 9 11 
PO=P(DP=]z, 5] 3-52) (4:98) 
DD. 


etc. Le vecteur doit être considéré ici comme une matrice ligne. 
Les valeurs p, (4) et p2 (t) sont consignées sur la table suivante 


| 2 3 4 5 
P1 (à) Î 0,5 0,45 | 0,445 0,4445 0, 44435 
0 0,9 0,59 0,595 0,5595 0,55595 


Cette table montre qu’à mesure que ft croît, les grandeurs p1 (t) 
et po () tendent vers des limites constantes: p4 (6) —+0,4444..., 
et po (té) —+0,9595... Ces valeurs constituent ce qu’on appelle 
les probabilités limites. On peut montrer que les valeurs des pro- 
babilités limites sont les mêmes dans le système considéré, quelles 
que soient les conditions initiales p1 (0) et p2 (0). Du point de vue 
physique les probabilités limites sont les probabilités dans un 
régime stationnaire. Le processus markovien dont les probabilités 
limites ne dépendent pas des conditions initiales est dit processus 
totalement ergodique [4.7]. On en déduit que le processus repré- 
senté par le diagramme de la figure 4.6 est totalement ergodique. 

Pour établir les probabilités limites d’un processus totalement 
ergodique on n’a pas besoin de calculer les suites p;(t) (t — 
= 0, 1, 2,...). Considérons, par exemple, les équations (4.91) 
relatives au schéma de la figure 4.6. Ecrivons-les sous la forme de 
deux équations du type (4.89) 


pt+1)=+ pif +< pit), 


F : (4.59) 
PaC+1)= 5 pt) + + pe). 
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Lorsque le processus transitoire s'achève, les probabilités p: 
et p2 prennent les valeurs permanentes p;; et p:s. En remplaçant 
dans (4.99) ps ( + 1) et pa (4) par pas et pe (t + 1), pa (4) par Por, 
on obtient les équations 


{ 2 
Pif = Pig T5 Pi 
(4.100) 


1 3 
Paÿ = Pit Pas 
La résolution de ces équations donne 
puy 04444 ..., pr 2 —0,5555..., (4.101) 


ce qui coïncide avec les limites vers lesquelles tendent pour { — 0 
les valeurs de p; (t) indiquées dans la table. 

Dans cet exemple les deux probabilités limites p:; et p2; sont 
différentes du zéro. Mais des cas peuvent se présenter lorsque l’une 


J / 
Z 


Fig. 4.7. 


d’elles est égale à un et les autres sont nulles. Cela signifie que 
le régime stationnaire du système s'établit dans un état défini. 
Tel est, par exemple, le système dont le diagramme est représenté 
sur la figure 4.7. Il est clair sans aucun calcul que, parvenu à l’état 2 
(la probabilité de cet état est supérieure à zéro), le système n’en 
sortira jamais plus. 

Des cas sont possibles lorsque la répartition des probabilités 
limites dépend des conditions initiales. Tel est, par exemple, le 
système du diagramme représenté sur la figure 4.8. Si à l’instant 
initial le système est en état Z, il y reste; mais si à l’instant initial 
il est en état 2, il y reste également. 

Un régime stationnaire peut donner lieu à des cycles limites. 
Considérons, par exemple, le diagramme de la figure 4.9. Quelles 
que soient les conditions initiales, fe système sera en définitive 
« entraîné » dans le cycle limite composé d’alternances des états 
2 et 5. 

On voit de ce qui vient d’être dit que la définition des p; (4) 
se ramène à l'étude des équations aux différences finies du type 
(4.89). Ces équations ont été étudiées dans les ouvrages traitant des 
processus markoviens [4.13, 4.14], dans la théorie des équations 
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aux différences finies [4.15], dans la théorie des systèmes impulsion- 
nels [4.11], ainsi que dans la théorie d'apprentissage en physiologie 
14.17, 4.18]. 

Examinons la méthode générale de recherche de la commande 
optimale pour un système discret markovien [4.12]. Supposons 


que le système. possède NV + 1 états q, Q2, . - ., Gn+1 dont gn+1 
est l’état final imposé. 

Associons à une transition quelconque de g; à g;, pour laquelle 
la probabilité p;; (k) est positive, un certain « coût » positif c;; (4) > 
> 0. De plus, le coût associé aux transitions de l’état final à ce 


Fig. 4.9. 


même état est considéré nul ; d’autre part on adopte encore que les 
transitions de l’état final à d’autres états sont inexistantes. Il vient 


Pruma=i @=1,2,...,1m) (4.102) 


pour toute commande vu, = &@x. 

Dans le cas particulier, pour tout #, j, k tel que p;; (k) = 0, 
C;5 (&) = 1. Le coût total du processus est alors d'autant plus grand 
qu'il y a plus de transitions, c’est-à-dire que la durée du processus 
est plus grande. 

À l'instant { — 0, le système est en un certain état initial 5, 
mesurable comme tous les s, (4 > 0). Une information précise sur 
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l’état courant s, est canalisée vers l’organe de commande qui élabore 
la consigne u,. Toutes les p;; (k) étant connues, la connaissance de 
l’état courant permet de calculer la probabilité de transition à tous 
les autres états. Ainsi l'information disponible à l'instant courant 
sur le système gouverné est maximale possible. 

Pendant ! pas successifs on observe une certaine suite des états 
du système (So, 3, .- - ., &), ainsi qu’une suite des commandes 
(Mo, Uy, - . ., uy_1). Appelons possible la suite des commandes et 
des états (&no Œpir + er Œh-1s Qjos Qjis + + «» Qu) Si elle est réa- 
lisable, c'est-à-dire si la probabilité conditionnelle de l'apparition 
de cette suite des commandes (app, Gi, + « +, On, 1-4) et des états 
(Qjos Ajas + - +, Qj:), pour l'état initial g;0 est supérieure à zéro. 

À chaque suite possible de longueur ! nous associons le coût c 
de la manière suivante: 


c— PA Grass, (6): (4.103) 


ci. étant ici le coût d'une transition de s, = q;, à Syta — Qi 


lorsque la commande à l'entrée du système est Uy =, Lorsque 
ce dernier atteint l’état final, le coût. c ne croît plus. En effet, 
les coûts des transitions ultérieures de l’état gy+1 à ce même état 
sont nuls. La formule (4.103) permet de définir également la 
valeur de c pour les processus dans lesquels l’état final n’est pas 
atteint. Dans ces conditions, si le nombre de pas est infini, le coût 
total du processus devient infiniment grand. 

Dans (4.121 on appelle stratégie, ou politique, l'algorithme de 
commande, c’est-à-dire la loi 


U3 = HN (s;), (4.104) 


qui associe une certaine commande à chaque état du système, sauf 
l'état final. Cette commande u, doit être donnée si le système se 


trouve en état s,. La loi (4.104) est une analogie parfaite de l’algo- 
rithme 


u=u(x) (4.105) 


relatif à un système continu. En effet, à chaque point Z de l’espace 
de phase l'algorithme (4.105) fait correspondre une commande définie 
üu. Pourtant, pour le système discret décrit plus haut, l’espace de 
phase est également discret et se transforme en un ensemble fini 
des états 7, 2, ... (cf. fig. 4.6 à 4.9). Les deux lois (4.104) et (4.105) 
sont caractéristiques des systèmes à information complète ou maxi- 
male sur l’objet, lorsque la connaissance de la « préhistoire », c'est-à- 
dire de la suite des états So, . . ., S;_, n’ajoute rien à l'information 
disponible sur l’objet. Pour notre part nous n’allons pas appeler 
stratégie les lois (4.104) et (4.105). 
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Il est commode de considérer l’ensemble des expressions 7x4, 


To, . - -, NN du type (4.104) pour les états possibles qu, q2, . .., LL 
du système comme le vecteur 
7 = (T4, os + + + An). (4. 106) 


On pose ici que la-commande n; est appliquée lorsque le système 

est en état g;. De plus, dans ce qui suit nous employons les notations 

Pi; Gi) et c;; (ni) au lieu de p;; (4) et c;;(k). Nous avons adopté 

encore que la commande prend l’une de ses valeurs possibles o4, . .. 
» Am: 

Les transitions d’un état à l’autre étant aléatoires, le coût totale 
du processus est également une grandeur aléatoire dont la réparti- 
tion dépend du type de l'algorithme x. Adoptons comme critère 
d’optimalité l'espérance mathématique du coût de l’état final X, (n). 
Cette grandeur est fonction de l’état initial g; et de l'algorithme 
adopté x. Désignons par X (x) le vecteur 


X(n)=(Xi(n), X2(n), ..., Xy (mn), (4.107) 
dont les coordonnées sont les espérances mathématiques du coût 
au départ à partir des états gi, 2, . . ., gNn. Pour abréger l'écriture 


“ppelons X (x) vecteur de coût. Soit X et Y deux vecteurs de coût 
associés à deux algorithmes différents. Alors l'expression X & Ÿ 
signifie que À ; < Ÿ; pour tout à — À, 2, ., AN. Ainsi l'algori- 
thme associé au vecteur X est uniformément eilleus que celui associé 
au vecteur Ÿ. Si nous considérons le coût relatif au processus de 
SE fixée /, nous pouvons le noter À ; (x, !) ou plus simple- 
ment À ; (i). 
Nous avons dit que l'algorithme x° est optimal s'il vérifie la 
condition 
X (n°) << X(n) (4.108) 


pour tout x. Pour l’algorithme optimal x° on peut déduire une rela- 
tion du même type que l'équation de Bellman. Examinons d’abord 


un algorithme quelconque x et le coût éventuel X,; (%) lors du démar- 
rage à partir de l’état initial g;. La probabilité de passer pendant 
le premier pas de g; à un certain état g; est p;; (n;), et le coût de 
cette transition est c;; (x;). Supposons d’abord que le premier pas 
a conduit le système à l’état g;. Le coût total du processus est donné 


alors par la somme L 
Ci (ni) + À; (n), (4.109) 


où X;(x) est l'espérance mathématique du coût du processus qui 
part de l'état g;. La grandeur définie par l'équation (4.109) est 
aléatoire du fait qu'après le premier pas le système peut se trouver 


Sa. 
red 
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dans différents.états g;. En prenant la moyenne:de la grandeur (4.109) 
on obtient pour l'espérance; mathématique X; (x) l'équation suivan- 
vante : | 


Xi (n) = M {ci5 (ii) + Xj(n)} (4.110) 
ou sous une forme développée 
LNH È 
X: (= 2 PirGu)lci;Gu)+X;(a)]) (6  1,....N). (4.111) 


Etant donné que X,: (x) = 0, on à 


: N D NH 
À (m)= 2: Pii (wi) À; (n)+ 2 PisQu)ci;Qu) G=1,...,N). 


(4.112) 


Les N égalités scalaires peuvent ‘tre remplacées par une éga- 
lité vectorielle 


X (x) = P (0) X (n)+c (ni), (4.113) 
où P (mn) est la matrice carrée à A lignes d'éléments pi; (n;) et 
c(n) le vecteur dont l’i-ième coordonnée s’écrit 

N+i : 

2) pis (rui)-ci (ui) = ci (ni). (4.114) 


La grandeur c; (x) est l'espérance mathématique du coût du 
premier pas lors du départ de g; et en utilisant l’algorithme x. On 
peut alors appeler c (n) vecteur de coût du premier pas. 

L'égalité (4.113) est valable pour n'importe quel algorithme. 
Désignons par.X° (n°) le vecteur de coût relatif à l’algorithme opti- 
mal sn. 

Etablissons la relation pour X° (n°) — X° en raisonnant de la 
manière suivante. Supposons que le premier pas à partir de g;. 
effectué en appliquant la commande n;, soit fixé. Le système atteint. 
l'état g;, alors que les pas suivants se font d’après une stratégie: 
optimale. D'une façon analogue à (4.109), l’espérance mathémati- 
que du coût du processus s'écrit 


Ci 3 (sui) + X9 (m0). (4.145) 


L'espérance mathématique de cette grandeur, égale à X;, s’ob- 
tient. sous la forme 


N+t 
Xi== M (ci; (mi) +X}} = 2: pislcis(u)+XA. (4.116) 
31e | 


14% 
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Pour obtenir l'algorithme optimal X? il faut minimiser le second 
membre de cette égalité par rapport à toutes les valeurs possibles 
de x;. Ainsi 
N+1 
X?= min | 2 pile; Gu)-+Xi}. (4.117) 
T; — 


Certes, le minimum peut être pris par rapport à x et non pas à a, 
sans que l'égalité (4.117) change. Elle peut donc s'écrire sous la 
forme vectorielle suivante : 


X°— min [2 (x) X°+ € (nl. (4.118) 


En résolvant cette équation on obtient X°, tout en définissant 
l'algorithme optimal n°. Pour rechercher la solution on peut mettre 


à profit le fait que X°, comme on le voit de (4.118), est un point 
fixe de la transformation 


T(X)= min [P (n) X+c ()]. (4.119) 


5 étant imposé une approximation nulle de X et effectuant les 
opérations écrites dans le second membre de cetle dernière égalité, 
on obtient la première approximation T (X) du vecteur X°. En 
remplaçant X dans le second membre de (4.119) par cette première 
approximation ct après avoir effectué les opérations indi- 
quées dans (4.119), on obtient la deuxième approximation 
T2 (X), etc. On peut supposer ainsi que La méthode itéra- 
tive permet de s’approcher aussi près que l’on veut de la gran- 
deur imposée X°. La minimisation du second membre de (4.119) 
permet de déterminer en même temps l'algorithme x, qui s'approche 
de plus en plus de l’optimal. Aïnsi 

X0— limT'(X). (4.120) 
T 00 

Bien entendu, les hypothèses énoncées ne peuvent d'aucune façon 
remplacer la démonstration. Mais existe-t-il en général pour ce 
problème un algorithme uniformément optimal? Et s’il existe, 
est-il l'algorithme unique? Le processus itératif exposé plus haut 
converge-t-il vers cet algorithme indépendamment de la valeur 
initiale de X? 

Dans [4.12] on trouve une réponse exhaustive à toutes ces ques- 
tions. Îl se trouve que dans certaines conditions un tel algorithme 
existe bien et ïl est unique. Le processus itératif converge quelle 
que soit la valeur initiale de X. 

Le résultat principal obtenu dans [4.12] et dont nous omettons 
la démonstration peut être énoncé de la manière suivante. 
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Appelons algorithme uniformément optimal l'algorithme pour 
lequel, à partir d’un état initial quelconque, le système peut attein- 
dre l’état final avec une probabilité positive. 

S'il existe au moins un algorithme uniformément optimal, 
l'équation (4.118) a une solution unique définie par la formule (4.120), 


où X est le vecteur initial et 7 est donné par l'expression (4.119). 
L'intérêt de cette dernière expression est grand car elle fournit 


un moyen efficace de calcul de X° et de l'algorithme n° qui lui 
est associé. 

Les raisonnements exposés peuvent être généralisés au cas où 
l’état final du système varie en fonction du temps. Nous obtenons 
alors le problème de « coup au but » dans le cas d’une cible animée 
d’un mouvement. Supposons que la consigne transmise à l'organe 
de commande à l'instant # soit une grandeur discrète p,; appartenant 
à l’ensemble gs, . .., gn. (L'état qxw+1 n'existe déjà plus. Au lieu 
de gn+1, à tout instant figure en tant qu'état final l’un des états g;.) 
Cela signifie que p; est la valeur courante de la consigne. Elle peut 
varier d’une façon aléatoire et constitue un processus markovien à 
probabilité transitoire p (Pp;}1[0:)- C'est une probabilité condi- 
tionnelle du fait qu’à l'instant (£ + 1) l’état final du système est 
041, Si à l'instant £ il était p;. Pour généraliser à ce cas la méthode 
exposée ci-dessus définissons un certain état « vectoriel » complexe 
Sÿ — (s;, P:}, c'est-à-dire un vecteur de coordonnées s, et p;. 

La probabilité conditionnelle d’un tel vecteur est donnée par 
l'expression qui se déduit du théorème du produit des probabilités : 


P (Su | se, U+) a (Se Oë+1 | St, Or, Ur) = 
= D (441 | Se, Of; Ur) °P (Os+1 | Stt1» St; De, U+) _— 


= p(Si41se, ue)-p (pepe). (4.121) 
Comme la probabilité de s,:, ne dépend que de s;, et de z, et la pro- 
babilité de p,,, que de p;, les coordonnées s,:, et p,+:;, sont indé- 
pendantes. 


Le vecteurs, peut avoir une des valeurs possibles q, — (q;, g;). 


Il y a au total V? états. Par conséquent, le vecteur s, est un proces- 
sus markovien à V2? états et la probabilité de transition définie par 
la formule (4.121) est considérée comme connue. 

Lorsque l’état s, du système initial coïncide avec la consigne 


o:, le processus markovien s, donne lieu à l’un des états s, — (g;, qi). 
Le nombre de ces états est N; chacun d'entre eux correspond au 
«coup au but ». L'ensemble de tous ces états (g;, gq;) (i = 1, ..., N) 
constitue un domaine que nous allons nommer Q. Par conséquent, 
le problème de « coup au but » optimal se ramène au problème de 
transition optimale du système s, de l'état initial imposé à l'un 
des états quelconque du domaine ©. Certes, pour le nouveau système 
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on peut reprendre la notation $; au lieu de 54. Le problème reste au 
fond le même à cette différence près qu’au lieu de rejoindre un état 
final, le système atteint le domaine imposé Q@ constitué de plusieurs 
états. 

Soient les états appartenant au domaine Q notés Qr +41, . . ., Qn- 
Le processus s’achevant lorsque l’état s, du système appartient 
pour la première fois à Q©, les états g1+1, . . ., gN peuvent s’appeler 
points d'absorption. En effet, le processus ne quitte plus le domaine Q. 
Le coût de transition d’un point quelconque du domaine © à un 
autre point de ce domaine est évidemment égal à zéro: 


Ni Ars = AN = 0: (4.122) 


L'équation des coûts X;,{n) (i — 1,..., L) des trajectoires 
menant dans le domaine ©, qui se déduit d’une manière analogue 
à la relation (4.112), peut s’écrire : 


L L 
X G)= 2 Pij (ui) X; G)+ 2 PisGu)cis (—1,2,...,2L). 
(4.123) 


Ces équations s’obtiennent à partir de (4.112) si l'on tient compte 
de (4.122) et si l’on pose p;; (x;) — 0 pour i= L+1,...,N., 
Sous la forme vectorielle la relation (4.123) s'écrit 


X (n) = P* (x) X (n) + c* (no), (4.124) 


A = (Tu, LL 
X (x) =(X1 (n), .., X1 (x), (4.125) 
c* (n) = (cr (n), ...,c£(n)), 
et P*{n) est la matrice d'éléments p;; (mi) (i, j—1,...,£). Enfin 


L 
cŸ (st;) = à Pis) cs) (i=1,2,...,L). (4.126) 


Dans ce cas-là également le vecteur du minimum du coût est 
défini par une équation analogue à (4.118) : 


X0= min [P* (x) Xo + c* (WI. (4.127) 


Dans le cas considéré on remplace d’abord lé système initial 
par un système plus complexe et puis on recherche la solution du 
problème pour le système obtenu. | 

Dans le cas traité plus haut nous avons examiné un processus 
transitoire dan sun système discret markovien et défini la commande 


$ 2]. SYSTÈMES : CONTINUS À ‘ÉTATS DISCRETS 245 


optimale minimisant un certain critère (le temps, par exemple) 
associé au processus transitoire. Toutefois, ON. peut résoudre non 
seulement les problèmes relatifs au processus transitoire, mais 
encore les problèmes concernant un processus stationnaire dans un 
système discret markovien [4.7]. Soit, par exemple, chaque transi- 
tion de l’état gi à l'état g; apporte non pas une perte Ci mais un 
gain r;; (le gain peut être considéré comme une perte négative, ou 
un coût négatif de transition).Au lieu de l’espérance mathématique 
du coût total X; du processus partant de l° état g; on peut introduire 
l'espérance mathématique du gain total v; (n) pour nr pas. 

Considérons nr pas (cycles, étapes), l’état initial étant g;. Suppo- 
sons d’abord que le premier pas consiste dans la transition de g; à 
un état fixé g; avec un gain r;;. L'espérance mathématique du gain 
total pour les r7 — 1 pas restants étant égale à v; (n — 1), l'espé- 
rance mathématique du gain total dans les conditions considérées 
peut s’obienir sous la forme 


Ti + V'; (n — 1). (4.128) 


Pourtant, en réalité, la transition de g; à g; est aléatoire. La 
grandeur définie par (4.128) est donc également aléatoire. En pre- 
nant sa moyenne sur l’ensemble des états g; munis de probabilités 
Pi;, on obtient l'espérance mathématique v; (n) du gain total pour 
le démarrage de l’état g; 


N 
vi(n)= M {ri;+v;(n—1)}= À Pi; lristviin—1)]- 


N 
=hi+ 2 pijv;(n—1) 
î= 
Heto Nestes.) (4.129) 


N 
hi = 21 pijris Gil, e.., Nh (4.130) 


L'égalité (4.129) est analogue à (4.112) et (4.130) à (4.114). 
Introduisons les vecteurs colonnes v(n) et À 


ee Us (2) | k h:. 


D (n) — h=!: |, (4.131) 


Un @) 


ainsi que la matrice P aux éléments p; ; comptant NW colonnes et N 
lignes. On a alors l’égalité vectorielle 


Din) = R+ Po (n 1), (4.132) 
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je est analogue à (4.113). Connaissant k et L Pet sachant que v (1) — 
— h, on tire de l'égalité (4.132) d’abord v (2), puis v (3), etc. Ce 
problème ne perd pas de sens pour l’accroissement illimité de n. 
Pour des n grands on est en présence d’un processus stationnaire. 
Maintenant tenons compte du fait que p;; et r;; dépendent de 
la “ommande u, — «y (k = 1, ..., m). Recherchons la commande 
optimale telle que le gain total w (n) soit maximal. Ecrivons Îles 
SES Pijsetr;; sous la forme Pij (4) et r;; (x) car elles dépendent 
de &,. Raisonnons ensuite de même que lors de la déduction de 
l'é spalité (4. 118) mais en remplaçant le minimum par le maximum. 
Soit le premier pas de g; à g; fixé, ainsi que la commande us = & 
et de plus la commande est optimale à tout instant ultérieur. L’espé- 
rance mathématique v (n) du gain en nr pas par analogie avec (4.128) 


s'écrit 
T5 (k) + mn — 1), (4.133) 


où v} (n — 1) est l’espérance mathématique du gain en r — { pas 
lors du départ à partir de g; et sous la condition que la commande 
soit optimale. En choisissant la commande w = à, au premier 
pas de façon qu’elle maximise l'espérance mathématique de l’expres- 
sion (4.133), on aboutit à l'égalité 


vi (n) = Fe à pis (&) [ris (k) + vi (n —1)] (4.134) 


(SR, Ni) 
ou sous forme vectorielle 


D0 (n) = max {Pyut (n—1) +}. (4.135) 


En procédant de proche en proche on calcule à l'aide des égali- 
tés (4.134) ou (4.135) l'espérance mathématique du gain w (n). 
En effet, si l’on connaît w° (0) — 0, on peut déterminer successive- 
ment &° (1), uv? (2), w° (3), etc. La maximisation simultanée par 
rapport à uw, donne la commande optimale. 

Nous avons déjà dit que la grandeur 


hi = = ÿ pis(k) ri; (4) (4.136) 


dépend de la commande u, = «x (k — 1, ..., m). À son tour, le 
numéro 4 de la commande dépend de nr. En introduisant la notation 
h; (k) on peut écrire (4.134) sous La forme 


N 
v? (re) = max [: (+ Z pus (ut (n—1)]. (4.137) 
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Etant donné que les p;; (4) dépendent de k, les deux termes entre 
crochets de l’expression (4.137) en dépendent également. 

Considérons l'exemple tiré de 14.71]. Soient deux commandes pos- 
sibles u = 3, k — 1, 2, et deux états g, et ge. Supposons que dans 
le cas k — 1 les matrices des p;; (1) et r;; (1) s’écrivent 


0, 9 3 
Pi=|| pi (1) [= 0,4 o.6/: , Ri=lr:;(t) 1=| 2 __7 , (4.138) 
Dans le cas £—2 on a 
— 0,8 0,2 —_ 4 4 
P,=|pu(@l=| 7 03 Re=lro(@l=|, _yol: (4189) 


Calculons les valeurs de h;(k) 


ha (1) = pu (D) ra (1) + pue (1) rio (1) = 0,5-9 +0,55 = 6, 
Ra (1) = pa (1) rai (1) + Paz (1) roo (1) = (4.140) 
= 0,4.3+0,6.(—7)= —3. 


D'une manière analogue 


h (2) = D11 (2) ru (2) + Dis (2) T42 (2) — 0,8-4+0,2.4—4, 
Ro (2) = Doi (2) ro (2) + D29 (2) ra (2) = (4 141) 
—0,7.1-40,3(—19)— —5. 


Si l’on pose v; (0) —0 la formule pe donne pour n —1 


U max max 
(= R(1) a CE — k(1) teen k (1) = 
Il est clair qu'il faut opter pour k (1} = 1, car w : acquiert 
alors une valeur maximale v? (4) = 6. Si le départ a lieu à partir 
de l’état g, on a 


(4.142) 


cet 0" @. = = (1) — 


Là aussi il faut opter pour k (1) — 1; v2 (1) acquiert alors la 
valeur maximale w, (1) — —3. 

Pour trouver les v, (2) utilisons la formule (4.137) que nous 
allons écrire pour nr — 2 


(4.143) 


2 
vf (2) = max [hi (4) + 2 pas (vi (D, (4.144) 
(2) = 


où v; (1) sont les grandeurs trouvées auparavant 
v°(1)=6, w (1) = —3. (4.445) 
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Cherchons d'abord v°(2). Ecrivons à cette fin deux valeurs 
possibles de v,(2) pour différentes valeurs de k 


[ui (2) ri = hu (1) + pa (1) 04 (1) + pas (1) v, (1) = 
—6+0,5.6+0,5(—3) —7,5, 


[Ua (2) lee = lu (2) + pu (2) vf (D) + pas (2) v, (1) — 
= 4+0,8-6+0,2(—3)— 8,2. 


(4.146) 


Comme v, (2) prend sa valeur maximale pour # — 2, nous posons 
k — 2. Il vient v° (2) — 8,2. 

D'une manière analogue 1? (2) = —1,7, de plus la commande 
optimale dans ce cas k (2} = 2. En poursuivant ce processus, on 
obtient les valeurs #, (n) et k: (n), commandes optimales au départ 
de g, et de g2 respectivement. 


ka (n) — 1 2 2 ARTENES 

vi (n) 0 6 8,2110,22|] 42,222 .. 
AvŸ(n)—= vu? (n)— uv? (n —1) . | 6 22 ae 2,002 ... 
k3 (n) 

uv (n) 


Aug (n} =v$ (n) — v3 (n — 1) 


On voit de la table qu’au fur et à mesure que le processus dans 
le système cesse d’être transitoire et devient stationnaire, l’accroi- 
sement Auf (n) tend à une certaine valeur constante. Nous allons 
montrer plus loin que ce n’est pas par hasard. 

Si, par exemple, jusqu’à la fin du processus il reste trois cycles, 
donc nr = 3, le gain éventuel dans le cas du départ de l’état q, est 
égal à 10,22, en appliquant la commande optimale k, (3) = 2. 

La méthode de définition de w} (7) exposée ci-dessus entraîne 
pour de grandes valeurs de r des calculs trop volumineux. Pour 
définir un algorithme optimal d’un processus stationnaire avec 
n — © il est plus commode d’appliquer une autre méthode. 

Avec ñn —o les probabilités d'états tendent vers les mêmes 
valeurs limites (finales) p;; indépendamment de l’état initial si le 
processus est totalement ergodique. Par ailleurs, l'espérance mathé- 
matique du gain pour un pas devient une grandeur constante que 
nous allons désigner par g. Quant au gain total v; (n) pour n pas, 
avec nr — oo, il reçoit un accroissement constant g avec chaque 


s2]. SYSTÈMES CONTINUS À ÉTATS DISCRETS ‘219 


nouveau pas. Par conséquent, avec de grands »#, on a pour v; (n) 
l'expression asymptotique suivante: 


v(n) & ng + vi, (4.147) 


où v; sont les constantes qui pour les à différents peuvent être diffé- 
rentes. C'est précisément cette allure asymptotique qu'ont les 
grandeurs 2! (n) et & (n) de la table ci-dessus dans le cas de grands n. 
En portant (4.147) dans (4.129), on obtient 


N 
ng+vi= hit 2 pain —1) 8 +vi (i = 1, A (4.148) 
1 
N 
Puisque > p;;—1, il vient 
j—=1 


N 
gtu=h+ à pijvs (i==14,..., N). (4.149) 
J1—= 


On dispose de N équations (4.149) pour définir V + 1 inconnues g, 
01, . . ., Un. Notons que l'addition d'une grandeur constante arbi- 
traire a à tous les v, ne change pas les équations (4.149). On en déduit 
que ces équations ne permettent pas de définir en général les valeurs 
de v;. Elles ne peuvent donner que les différences (v; — v;). Pour- 
tant les valeurs mêmes de v, ne nous intéressent pas si nous définis- 
sons comme optimal un algorithme qui en régime stationnaire 
maximise le gain moyen g relatif à un pas. Les équations (4.149) 
fournissent alors tous les renseignements nécessaires. 

On peut pourtant définir la valeur de g à partir d’autres consi- 
dérations. Supposons que nous avons trouvé les probabilités finales 
d'état p;;; de plus le gain moyen par pas, comme on le voit de (4.130), 
est À;. Mais puisque dans un régime stationnaire sont possibles 
n importe quels q; à probabilités p;;, l'espérance mathématique du 
gain par pas est alors définie par l'expression 


N 
D 2 Pis'hie (4.150) 


Pour appliquer cette formule il faut au préalable déterminer les 
probabilités finales d'états p;;. Nous avons montré dans ce qui 
précède comment il faut procéder à cet effet. Le plus simple est de 
définir g et v; à partir des équations (4.149) en posant l’un des v;, 
v, par exemple, égal à zéro. On cherche alors en fait les différences 
(U; — Vn); pourtant ces équations donnent la valeur de g. Or, les 
équations (4.137) rendent possible l'obtention par itération de 
l'algorithme optimal Æ!° (). (ensemble des commandes optimales k° 
pour tous les états g; en régime stationnaire) qui maximise le gain 
espéré g par pas. 
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En vertu de (4.137) l'algorithme optimal Æ° s'obtient en maxi- 
misant l’expression suivante par rapport à k: 


N 
hi (E) + 2 Pi; (k)v;(n) (4.151) 


(dans (4.137) on peut remplacer v, (n) par v; (n + 1) et v;(n — 1) 
par v; (n)). 

Conformément à (4.147), pour de grands n cette expression peut 
être remplacée par 


N N 

Mile) + À per (9 Ce +05) = hi (+ À pes (Ov; +ng. (4.152 
2— == 

Notons que # n'intervient que dans une partie de cette expression 


N 
hi (E) + À Pi; (k) vj. (4.153) 


Pour commencer l’itération imposons-nous les valeurs initiales 
quelconques de v;. On peut poser, par exemple, v; — 0 pour tout j. 
Ayant ainsi fixé les v;, on peut trouver pour tout à les commandes # 
qui maximisent l'expression (4.153). Fixons maintenant l’algorithme 
k obtenu et résolvons les équations (4.149) pour définir g et v; (en 
posant toujours que vy — 0). Après avoir calculé les nouvelles 
valeurs de v;, reprenons l’expression (4.153) pour la maximiser par 
rapport à * et déterminer une nouvelle approximation des comman- 
des. Après avoir trouvé # pour tous les i, fixons-les encore pour 
rechercher à partir de (4.149) les nouvelles valeurs de g et v;, etc. 
Dans [4.7] il a été démontré que ce processus converge et donne à la 
limite la solution de l'équation 


N 
g+ ui = max [hi (k)+ D pis (k) vil (4.154) 

k j=1 
qui est parfaitement analogue à (4.134) pour le cas du régime sta- 
tionnaire. [l ne faut pas oublier que r? et w; sont ici certains nombres 
qui ne dépendent pas de #. 

Considérons maintenant l'exemple donné dans [4.7] pour le 
cas des matrices (4.138) et (4.139). Choisissons d’abord k — 1 pour 
i = À, 2. 

Les équations (4.149) s’écrivent dans ce cas 


gi = 0 +0,50 + 0,5, 7 
g + vo = — 340,401 + 0,6. 1 

Posant v = 0 trouvons 
g = À, uw = 10, w = 1. (4.156) 


Maintenant il faut introduire les valeurs obtenues des v,; dans 
l'expression (4.153) et effectuer la maximisation par rapport à # 


(4.155) 
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pour tout à. Les résultats des calculs sont donnés dans la table 
ci-dessous : 


_——— 


N 
i A h3(R) + D Pi ® vj 
3=1 


1 | 640,5.1010,5.0— 11 


4 | __ 
2 44+0,8.10+0,2.0— 12 
{ | —3+0,4.10+0,6.0—1 

D UM nt > =. _ 
D M0 7100 8025 | 


On en déduit que pour i = 1 la valeur la plus avantageuse est 

k = 2; pour i — 2 il faut opter également pour # = 2. 
Poursuivons le processus itératif. En fixant # — 2 pour tout 
i on obtient les équations (4.153) sous la forme 
g +vi = 4 +0,08: +0,20», À 


g+vasz —9 + 0,7 +0, 3u. ] 


(4.157) 


Posant v2 — 0 et résolvant; ces équations, il vient 


g = 2, & = 10, w — 0. ! (4.158) 


En comparant (4.158) et (4.156) on peut voir qu'une nouvelle 
itération apporte un gain moyen double par rapport au précédent. 
L'itération peut être poursuivie. Pourtant, les valeurs des v, four- 
nies par (4.158) se sont avérées les mêmes que celles obtenues avec 
(4.150). Par conséquent, en les portant dans (4.153) et en maximi- 
sant cette expression par rapport à #, on obtient le même résultat 
que dans la table ci-dessus. Aïnsi les valeurs des # (i) obtenues à 
l'itération suivante coïncident avec celles de l’itération précédente. 
Cela signifie que les itérations ultérieures sont inutiles, que l’algo- 
rithme obtenu est optimal et qu'il vérifie la condition (4.154). Ainsi, 
dans l’exemple considéré, l’algorithme optimal est A? (1) — Æ°? (2) — 
— 2 et le gain moyen optimal par pas g = 2. 

La méthode itérative décrite ci-dessus n'est applicable qu’aux 
processus stationnaires. Dans ce cas, la méthode considérée rend 
relativement simple la recherche de l'algorithme optimal. 

Dans 4.7] est étudiée également une classe intéressante de pro- 
blèmes relatifs aux systèmes discrets où la transition d’un état à 
l’autre est un processus aléatoire (poissonien). Pour les problèmes 
concernant le processus optimal dans un système continu aux entrées 
poissoniennes voir, par exemple, [4.24]. 


CHAPITRE V 


SYSTÈMES OPTIMAUX À ACCUMULATION 
INDÉPENDANTE (PASSIVE) DE L'INFORMATION 
SUR L'OBJET 


$ 1. Principaux problèmes de la théorie 


des systèmes optimaux à accumulation indépendante 
de l'information 


Considérons toujours que l’organe de commande À reçoit une 
information complète sur l'opérateur F de l’objet B et sur le but 
final, c'est-à-dire sur la forme du critère d’optimalité Q. Quant 


à l'information sur la consigne z*, la perturbation z, qui agit sur 
l'objet B, et la grandeur de sortie x, elle peut être incomplète. Sup- 
posons ensuite que la quantité d'information sur les grandeurs r*, 


zx et z peut augmenter avec le temps, ceci indépendamment du com- 
portement de l’organe de commande À. Si ce dernier gouverne l’objet 
suivant une loi optimale, le système sera dit optimal, à accumula- 
tion d’information indépendante, ou passive (cf. également cha- 
pitre I). 

L'accumulation de l'information peut avoir lieu dans deux cas. 


— — 


a) Supposons que la grandeur z* (ou z), mesurée sans erreur, 
constitue un processus aléatoire plus complexe qu'un processus 
markovien. On peut préciser ses caractéristiques probabilistes en 
l’observant pendant un certain temps. Dans ce cas l'observation 
permet d’accumuler une information qui rend possible la prédiction 
du comportement futur de ce processus. 

b) La grandeur x* (ou z) est mesurée avec une certaine erreur 
ou bien le résultat de mesure passe par un canal où le signal utile 
est entaché de bruits. Dans ce cas les valeurs du signal utile doivent 
être précisées par l’observation. Plus cette observation dure, plus 
l’estimation du comportement futur de x* est précise. 

Le deuxième cas est plus important. 

Un exemple typique d’un système à accumulation indépendante 
de l'information est donné par la figure 9.1. L'information sur la 
valeur x de la grandeur commandée est amenée par la chaîne de 
réaction de la sortie de l’objet B à l'organe de commande À. A l’inté- 
rieur du circuit fermé du système les perturbations et les bruits sont 

absents. Pourtant, la consigne z* est fournie à l’entrée de À par 
le canal Æ* avec un bruit hk*. Dans ce canal au signal utile S ajoutent 
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des bruits. A Ia sortie du canal F* apparaît la grandeur y*, diffé- 
rente de x*, appliquée au lieu de x* à l'entrée de l’organe de comman- 
de À. La tâche de l’organe de commande consiste également à sépa- 
rer le signal utile du bruit ; cette tâche peut être réalisée avec assez 
de sûreté si l’on observe pendant une certaine période les valeurs 
y*. L’estimation de la valeur x* effectuée après cette période dépend 


en général des valeurs y* observées. Ainsi l'estimation de x* et par 
conséquent la commande réalisée par l'organe À à l'instant courant 


t dépendent de la « préhistoire » de la grandeur d'entrée y* (+) pour 


T<<t. Autrement dit, la commañde & (#) à l'instant t est une fonc- 
tionnelle des valeurs y* (T) 
pour T<Té. Il s'ensuit qu'à 
la différence des organes étu- 
diés dans les chapitres III et ZX 
IV, dans Ie cas considéré 
l'organe de commande opti- 
mal À n’est plus sans inertie. 
Il doit être un système dyna- 
migue dont la grandeur de 
sortie à l’instant donné dépend 
non seulement des valeurs 
courantes des grandeurs d'entrée, mais encore de leurs valeurs dans 
le passé. L'organe de commande optimal traité dans le présent 
chapitre et le chapitre suivant constitue un système dynamique. 
La figure 5.1 représente le schéma fonctionnel d’un système 
de commande en boucle fermée. Le problème consiste à réaliser la 
synthèse de l’organe de commande optimal À ou, plus précisément, 
à rechercher son algorithme optimal. Puisque À est maintenant 
un système dynamique, pour distinguer ce cas plus complexe des 
cas précédents bien plus simples: nous allons parler de stratégie opti- 
male de l'organe À. | 
Parfois la recherche de la stratégie optimale de l'organe À du 
schéma de la figure 5.1 se fait en deux étapes. À la première, on envi- 
sage le système à l’intérieur du contour en pointillé comme un seul 
organe F et on cherche l'algorithme optimal de cet organe. À la deu- 
xième, on décompose F pour définir la stratégie de l'organe À, l’opé- 
rateur de l'objet B étant donné. Certes, des difficultés peuvent. 
surgir dues à la réalisabilité ou à la grossièreté de l’organe A. Appe- 
lons réalisable un organe dont la grandeur de sortie peut dépendre 
des valeurs courantes ou antérieures des grandeurs d'entrée mais 
jamais des valeurs futures si seulement celles-ci ne sont pas connues 
d'avance. La grossièreté signifie que pour des variations suffisam- 
ment petites des paramètres de l’algorithme de l'organe de commande 
les variations des grandeurs de sortie ou des caractéristiques quel- 
conques de cet ‘organe ou du système tout entier sont aussi petites 
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que l'on veut. Quand on a affaire à un organe de commande qui 
est un système dynamique, on est obligé à imposer les conditions 
de réalisabilité et de grossièreté. La notion bien répandue de réali- 
sabilité physique inclut en général les deux concepts mentionnés. 


ni LL. 
a 4 A 8 


ee — 1 


— 


Fig. 5.2. 


La figure 9.2 montre un système en boucle ouverte à accumula- 
tion indépendante de l'information. La consigne x*, de même que 


sur la figure 5.1, passe par le canal A* avec le bruit h*. 


En sortant de ce canal, la consigne y*, signal utile entaché de 
bruit, est amenée à l’entrée de l’organe de commande À. Supposons 


que ce dernier agit sur l'objet B par le canal G avec le bruit g. L'action 
réelle v qui apparaît à l'entrée de l’objet B peut donc différer de 
l’action w à la sortie de l’organe de commande À. Dans ce chapitre 


Fig. 5.8. 


nous allons étudier essentiellement les systèmes en boucle ouverte 
dans lesquels la grandeur de sortie x n’est pas amenée à l'entrée de À. 


La perturbation aléatoire z reçue par l’objet B du schéma de la 
figure 5.2 n’est pas mesurée. C’est pourquoi l’organe de commande À 
de ce schéma n’est renseigné que sur Les caractéristiques probabilistes 


a priori de la perturbation z qui peuvent être établies, par exemple, 
par traitement statistique des essais réalisés dans le passé et emma- 
gasinés par l'organe À. Dans l’expérience considérée l’organe À du 
schéma de la figure 9.2 ne reçoit aucun renseignement sur la 
perturbation z. 


Il se peut pourtant que la grandeur z est mesurée au cours de 
l’expérience et le résultat est transmis à l’entrée de l'organe À. 
Ce cas est montré sur la figure 5.3. Puisque les mesures s'effectuent 
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avec une certaine erreur, on peut représenter le résultat sous la 
forme de la mesure précise de la perturbation z à laquelle s’ajoute 


dans le canal Æ un bruit e. La valeur w& apparaissant à la sortie du 
canal Æ£ et amenée à l’organe de commande À diffère en général 


de la valeur réelle de z. 
Le problème de construction d’un système de commande automa- 


tique est énoncé souvent comme un problème dual. D'une part, x 
doit vérifier une certaine loi imposée, qui en général dépend de x* ; 
d’autre part, x ne doit pas dépendre de la perturbation z. On donne 
souvent à cette dernière restriction la forme d’une condition d'inva- 


riance : æ doit être invariant par rapport à z. Pourtant dans le cas 
général il est plus commode d’énoncer le critère final non pas sous 
la forme de deux, mais d’une seule condition, comme nous le faisons 
partout dans le présent ouvrage. Soit le critère final énoncé sous la 
forme de la condition 


Q (x, x*) = min. (5.1) 


Dans le cas concret d'un système d'ordre nr on peut appliquer un 
critère de la forme 


T ñ 
e-i3 (aix) dt. (5.2) 
0 à 


Dans un système optimal le critère Q acquiert alors une valeur mini- 


male en assurant par là une dépendance minimale entre x et la 
perturbation 3%. 

Si un système rend possible l'obtention d’un minimum absolu 
de ©, ce système peut s'appeler idéal. Ainsi, dans un système idéal 
de critère (5.2). les valeurs de x; doivent toujours être égales à x? ; 
dans le cas idéal © prend donc la valeur minimale égale à zéro. Si 
un système idéal réalise une indépendance totale entre x et la per- 
turbation z, c’est précisément parce que x ne dépend que de x*. Bien 
entendu, on peut imaginer un système non idéal dans lequel ZX ne 
soit pas strictement égal à là valeur imposée z* mais ne dépende 
quand même pas de z 

D'après (5.1, 5. 2] : un système idéal donne lieu à une invariance 


totale. L'erreur & — x — x* est identiquement nulle et ne dépend 
pas de x* ni de z. 

L'égalité de & à zéro, c’est-à-dire l'observation de la condition 
d'existence d’un système idéal, est la meilleure solution possible. 
Si on pouvait toujours l’obtenir, la théorie des systèmes optimaux 
se ramènerait à la théorie de l’invariance. Pour trouver la relation 
entre ces deux théories différentes, il faut déterminer les classes 
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des systèmes pour lesquelles la condition d'invariance totale est 


réalisable. 
La théorie de l’invariance traite, parfois sans bien les délimiter, 


" 


de deux cas distincts de systèmes à mesure directe et indirecte de 


la perturbation z. Pour le premier de ces cas le principe de compensa- 
tion a été proposé en 1829 par Poncelet. Lors de la mesure directe 


de la perturbation z la forme de la condition de compensation est 


q) É 


Ÿ — 
LC” Un E —— 
el 4 
7 G 
-x ÀubG(p) 


oi 


— —: 


Fig. 5.4. 


très simple si les mouvements de tous les circuits du système sont 
décrits par des équations linéaires à coefficients constants [5.2]. 

L'étude a porté également sur les systèmes non linéaires (cf., 
par exemple, [3.25], pp. 501 à 502). Dans [5.42] les méthodes varia- 
tionnelles ont permis d’obtenir les conditions pour les systèmes linéai- 
res et pour une classe très générale de systèmes non linéaires. 

Dans le cas de la mesure indirecte de la perturbation Z le circuit 
de la mesure directe est absent. Considérons à titre d'illustration 
un exemple élémentaire [5.3, pp. 123 à 124]. Supposons qu'à la 
sortie d’un système de fonction de transfert G (p) apparaît la per- 
turbation z (fig. 5.4,a). Ce peut être une perturbation rapportée 
à la sortie de l’objet, mais qui agit en d’autres points du système 
de commande. Considérons que le dénominateur de la fonction de 
transfert G (p) dépend de p et que sa puissance est supérieure à 
celle du nominateur. C’est donc un élément avec inertie; sa caracté- 
ristique amplitude-fréquence décroît à des fréquences suffisamment 
élevées. Aussi, l’objet représenté sur la figure 5.4,a n’est pas idéal 
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et lorsqu'on applique à son entrée la grandeur x*, on obtient à sa 
sortie en général une autre grandeur. 

Pour rendre ce système idéal (sans inertie et insensible à la per- 
turbation z), il faut connecter en série G et un circuit de fonction 

bye à | 

de transfert — (fig. 5.4,b). Ensuite, pour compenser la perturbation z, 
il faut envoyer à l'entrée du système la grandeur (—2). 

Un tel système peut être considéré comme un système où sont 
réalisées une mesure indirecte et une neutralisation de la perturba- 
tion z et éliminée l’inertie du système G par introduction du cir- 


cuit _ En connaissant la grandeur de sortie w de l’objet ainsi que x 


et G (p), on peut définir la grandeur z (fig. 5.4,a). Avec les mêmes 
notations w, z et x pour les transformées on a 


z = x — uG (p). (5.3) 


En appliquant à l'entrée du système la grandeur (—z), on obtient 
le schéma de la figure 5.4, c. 

Le second membre de l'égalité (5.3) est élaboré (fig. 5.4,c) en 
additionnant la grandeur (— x) avec la grandeur w qui passe par le 
bloc G(p) et l’amplificateur à gain ko unitaire. Pour obtenir Île 
dernier terme, il convient d'introduire l’inverseur à gain (— 1). 

Cependant le schéma de la figure 5.4,c est équivalent à celui 
de la figure 9.4,d. La fonction de transfert du circuit encadré par 
le pointillé est définie par l’expression 


G À 1 
ere L== ho; 6 


= k; (5.4) 


al= 


Avec ko — 1 le gaïn k, de ce circuit tend vers l’infini. Il en résulte 
le schéma représenté sur la figure 5.4,e. | 


Le bloc = peut être éliminé du schéma 5.4,e. On obtient alors 


un autre schéma donné par la figure 5.5. Le gain suffisamment 
grand #, de l’amplificateur permet ici de rendre l'erreur & aussi 
petite que l’on veut [5.4]. En effet, la transformée de la grandeur 
de sortie peut s’écrire 


. A k\G k 
Fe t dec 952) 
alors que celle de l’erreur peut être mise sous la forme 
E — z* — TL — — = = = 
= 7 1FHG 11% (9.6) 


En faisant tendre 4, vers l'infini, on peut obtenir à la limite 
une erreur & égale à zéro. 


15% 
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Bien entendu, ce système, en plus des oscillations forcées, donne 
lieu à des oscillations libres, qui peuvent s’accroître en rendant le 
système instable. Nous n’allons pourtant pas nous attarder aux 
problèmes d’instabilité. Dans [5.4] il est montré comment un schéma 
à réaction peut être rendu stable même lorsque le gain # est infini- 
ment grand. 

L'interprétation physique des phénomènes qui ont lieu dans le 
schéma de la figure 5.4,e ou de la figure 5.5 est assez simple. La dif- 
férence & — z* — x est fournie à l’entrée de l’amplificateur à gain 
k, infiniment grand. Dès que cette grandeur s’écarte de zéro dans 


Fig. 5.5. 


un sens quelconque, à la sortie de l’amplificateur apparaît une 
grandeur suffisamment importante qui agit sur le système en modi- 
fiant la grandeur d'entrée x de façon à réduire la différence # à zéro. 

Si dans le cas idéal on pouvait obtenir une erreur aussi petite 
que l’on veut ou nulle, une telle solution serait la meilleure et au 
lieu de la théorie des systèmes optimaux on pourrait appliquer seule 
la théorie de l'invariance. Malheureusement, la réalisation d’un 
système idéal n'est possible que si l’on pousse assez loin l’idéalisa- 
tion des problèmes réels, maïs alors le cadre de son application 
pratique devient très restreint. L’invariance peut s’obtenir dans 
les conditions suivantes : 

a) vérification des conditions de réalisabilité et de grossièreté ; 

b} limitation de l’action des perturbations aléatoires à un domai- 
ne défini (pour les détails voir plus loin) ; 

c) absence de contraintes imposées directement ou indirectement 
à la commande et aux coordonnées du système. 

Passons outre le point a) (dont l'observation est loin d’être 
possible dans tous les cas) et voyons comment intervient la deuxième 
condition. Il se trouve que même dans un schéma muni d’un ampli- 
ficateur à gain important, on n'arrive pas à neutraliser toute per- 
turbation z. La figure 5.6,a montre un tel système ; il faut pourtant 
tenir compte de ce que tout amplificateur réel a un coefficient de 
transfert Æ (jæ) complexe dont le module décroît brusquement 
aux fréquences suffisamment grandes. C'est pourquoi lorsque la 
perturbation z comporte des bruits d'une fréquence suffisamment 
élevée, sa compensation totale est impossible. Physiquement, une 
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cause analogue intervient également dans le schéma purement discret 
de la figure 5.6,b. Toutes les grandeurs sont examinées ici à des 
instants discrets £ — 0, 1, ..., s, ... . Supposons qu’à l'instant 
t — s la grandeur est affectée de l'indice s. Si g, est une suite de 


a) 


variables aléatoires indépendantes de loi de répartition donnée et, 
pour simplifier, G est posé égal à un, la mesure précise de la gran- 
deur aléatoire z, est impossible. En effet, la figure 5.6,b montre que 


Ts = Ze À Us + Las (5.7) 


Z2s — (ze = LU) — Eee (9.8) 


d’où l’on tire 


Le premier terme de cette expression donne l'estimation de 2, 
recherchée, le deuxième terme est l’erreur de mesure. Vu que dans 
ce schéma z, est mesuré indirectement et avec erreur, on ne peut 
obtenir une compensation précise. | 

Si la perturbation est appliquée à un point entre la sortie de 
l’amplificateur k, et la grandeur de sortie z, comme nous l’avons 
vu dans ce qui précède, dans une certaine mesure sa compensation 
est possible. Pourtant, dans d’autres cas tout aussi importants, lors- 
que la perturbation s’ajoute à la consigne x* (fig. 5.7,a) ou se situe 
dans la chaîne de réaction en s’ajoutant à la grandeur de sortie 
(fig. 5.7,b) la situation devient bien pire. Ces cas sont parfaitement 
réels, car la mesure des grandeurs z* et x se fait toujours avec une 
certaine erreur ; de plus les grandeurs mesurées peuvent être transmi- 
ses par des chaînes d’action où elles sont entachées de bruits. Dans 
les schémas représentés sur la figure 5.7 l'invariance est en général 
impossible; pour obtenir de meilleurs résultats, il faut donc poser 
et résoudre les problèmes conformément à la théorie des systèmes 
optimaux. 
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La théorie de l’invariance suppose d'ordinaire qu'il n'existe 
pas de contraintes directes ou indirectes sur la commande ni sur 
les coordonnées du système. C’est une condition très forte dont 
l'observation rend souvent nul l'intérêt pratique du problème. Un 
exemple de la contrainte indirecte peut être donné par le choix du 
critère d'optimalité sous la forme 


Co DO 


Q— | [x — 2%)? + Au?] dt = À (E? + Au?) dé. (5.9) 
ÔÛ 


0 


Si À — 0, le système idéal s'obtient avec & = 0 et Q — 0. 
Toutefois, en ajoutant le terme À?u? à l’expression sous le signe 
somme, on restreint l'effet intégral de l’action x en interdisant 

h ses valeurs trop grandes. Dans 

h° Z ce cas le minimum de © n’est 

vai ne ÿ". LS plus nul (cf. chapitre III) et 

Tr AGE 4 pour un système optimal la 

grandeur € n’est pas identi- 

quement nulle. Le même résul- 

tat s'obtient si l’on applique 

le critère intégral généralisé 
L (cf. chapitre EH). 

Le rôle le plus important 
revient pourtant aux contrain- 
tes directes dont le sens est 
traduit par le fait que la com- 
mande et les coordonnées du 
système ne peuvent ou ne doi- 
vent pas dépasser certaines 
limites admissibles. Par con- 
séquent, la grandeur de sortie 
de l’amplificateur des figures 5.4, 5.5, 5.6 ne doit pas dépasser 
la valeur admissible. On en tire immédiatement que l'obtention de 
la valeur & = 0 est impossible. Or, dans la grande majorité des 
problèmes l'idéalisation est raisonnable tant que les grandeurs 
peuvent être limitées par des valeurs admissibles. 

11 convient de noter que les procédés fondés sur la compensation 
lors de la mesure directe (cf. fig. 9.3) sont un auxiliaire précieux 
dans l’étude des systèmes. Ces procédés, qui ont à leur base Le prin- 
cipe de Poncelet, ne constituent pas l’essentiel de la théorie de 
l’invariance mais forment une branche à part étudiée depuis de 
nombreuses années. 

Il est possible de réaliser une invariance partielle, par exemple, 
assurer l'absence d’erreur dans un processus stable. Les procédés 
correspondants (introduction des intégrateurs ou autres procédés) 
sont également bien connus et n’ont aucun rapport direct avec la 


a) 


b) 


Fig. 5.7. 
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théorie de l’invariance. De plus, avec des perturbations aléatoires 
le calcul d’un régime stable se ramène aux problèmes typiques de 
la théorie des systèmes optimaux lorsque l’erreur est différente de 
zéro et la tâche consiste à minimiser une des mesures de cette erreur 
(la variance, par exemple). 

La diminution de l'erreur par introduction des amplificateurs à 
gain important et à réaction négative profonde, comme dans le 
schéma de la figure 5.5, permet d’obtenir une petite erreur perma- 
nente tout en assurant la stabilité du système [5.4]. Les schémas 
de ce type ont trouvé une très large application, par exemple, dans 
la simulation électronique [3.25], [5.5]. Ce domaine constitue éga- 
lement une branche particulière. 

Pour ce qui est de la branche principale de la théorie de l’inva- 
riance, étudiée pour la première fois dans [5.6], étant formellement 
correcte, elle traite des systèmes superidéalisés. Dans cette théorie 
la mesure indirecte de la perturbation et l’élimination de l'inertie 
s’obtiennent par compensation et application d’une réaction posi- 
tive dans le but d'obtenir un gain infini. L'influence des bruits 
aléatoires et des contraintes n'est pas prise ici en considération. 
Les systèmes de ce type ne vérifient pas, en outre, la condition de 
srossièreté [5.6]. Souvent le rôle des contraintes revient à des non- 
linéarités de types variés; la théorie de l'invariance ne peut donc 
étudier non plus les systèmes de ce type. Par conséquent, cette 
théorie ne peut être appliquée que dans un cadre très étroit qui 
ne promet pas de s'étendre; au contraire, il diminue toujours du 
fait qu’en technique on observe un progrès continu dans le sens 
d’une précision plus poussée et d’une meilleure utilisation des ressour- 
ces des systèmes d’où le fonctionnement du système aux régimes 
limites, la prise en considération des contraintes et des perturba- 
tions aléatoires. 

Certains ouvrages traitent de ce qu'on appelle l’« invariance à & 
près ». Cela signifie que, l’invariance totale étant impossible, ces 
ouvrages se consacrent à l’étude des problèmes relatifs à une erreur 
minimale non nulle et pouvant être quelconque, même aussi grande 
que l’on veut. Cette formulation du problème ne se distingue déjà 
plus de celle donnée par la théorie des systèmes optimaux. Dans 
ce domaine présente un grand intérêt une classe particulière des 
problèmes où il faut déterminer les conditions de faible sensibilité 
du système aux variations des perturbations. L'étude de la sensi- 
bilité peut s'effectuer lors de l’analyse des systèmes. Maïs si cette 
notion est introduite dans un problème de synthèse, elle peut figurer 
sous la forme d'un critère d'optimalité ou de contraintes et donc 
laire partie des problèmes de Îa théorie des systèmes optimaux. 

Les systèmes en boucle ouverte examinés dans ce chapitre pré- 
sentent un grand intérêt pour la technique des communications. 
C’est précisément dans ce domaine que la théorie des systèmes opti- 
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maux à accumulation de l'information a trouvé sa première applica- 
tion. Or, cette théorie présente également un grand intérêt pour les 
systèmes de commande automatique (cf. chapitres V et VI). 

Malgré la grande diversité des problèmes, ces dernières années 
on à vu se préciser dans la théorie des communications trois groupes 
principaux suivants de théories. 

1) Théories de corrélation. Les problèmes de ce groupe ont ce 
trait particulier qu’on ne connaît pas toutes les caractéristiques 
probabilistes mais seulement les fonctions de corrélation des pro- 
cessus aléatoires. Il se trouve que si l’on se borne aux systèmes linéai- 
res et au critère d'optimalité sous la forme du minimum de l’erreur 
quadratique moyenne, ces données suffisent pour construire, par 
exemple, un filtre optimal. Dans le présent ouvrage nous n’exami- 
nons pas ce groupe de théories. La littérature relative à ce domaine 
est donnée dans la bibliographie du chapitre I. 

Les théories de corrélation peuvent être appliquées également 
au calcul des systèmes non linéaires mais dans ce cas leurs possibili- 
tés sont limitées. 

2) Théorie d'information. Cette théorie a pour objet les problè- 
mes de transmission des communications d'un point de vue très 
général. Sa tâche principale consiste à rechercher un code optimal, 
les propriétés du canal de transmission et la nature statistique de 
la source des communications étant données. Bien que ce problème 
ait plusieurs solutions intéressantes, à la différence des questions 
de transmission et de stockage de l'information, les méthodes de la 
théorie relatives au traitement de l'information ne sont pas encore 
au point. 

3) T'héorie des décisions statistiques. Il semble que cette théorie 
soit la plus générale et applicable à n'importe quels processus des 
systèmes de communications et de commande tant en boucle ouverte 
que fermée. Dans notre exposé nous nous basons sur les concepts 
de cette théorie. 

L'une des sources de la théorie des décisions statistiques est la 
statistique mathématique, branche importante du calcul des pro- 
babilités. Vers la fin du XIXE® siècle et la première moitié du XX® 
siècle, dans ce domaine on a vu apparaître la théorie d'estimations 
des paramètres (R. Fischer, H. Cramer et, plus tard, le savant sovié- 
tique Ÿ. Linnik [5.7 à 5.91) et la théorie de vérification d'hypothè- 
ses (J. Neumann, E. Pearson, A. Kolmogorov). 

La théorie des jeux a débuté indépendamment de la statistique 
mathématique. Cette discipline dont les fondements ont été posés 
par le mathématicien français E. Borel, à été développée par J. von 
Neumann et autres (1928) tout en pénétrant au cours de son évolu- 
tion sous des formes différentes dans les théories des opérations, 
de programmation linéaire (dont les principes ont été établis par 
le mathématicien soviétique L. Kantorovitch en 1938) et de pro- 
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eramimation dynamique. L'objet principal de la théorie des jeux 
est le jeu à deux ou à plusieurs personnes, les règles du jeu et notam- 
ment les gains éventuels des participants étant connus. Le problème 
consiste à élaborer pour chaque participant une stratégie optimale, 
c'est-à-dire la méthode de recherche de Ia « meilleure » solution. 
Même dans la pire des situations une telle stratégie doit fournir le 
coup le plus avantageux. 

Notre ouvrage n’exposant pas la théorie des jeux, le lecteur qui 
s’y intéresse peut s’adresser aux ouvrages [5.10 à 5.14]. 

La réunion et le développement de plusieurs idées énoncées 
ci-dessus ont conduit en 1948-1950 le mathématicien américain 
A. Wald à construireune discipline mathématique statistique géné- 
rale qui a reçu le nom de théorie des fonctions de décision [5.191]. 
Il semble que plusieurs idées de R. Bellman qui s’est consacré à 
la programmation dynamique sont dans une certaine mesure liées 
aux principes de la théorie des fonctions de décision. 

Indépendamment de toutes ces disciplines mathématiques, la 
théorie des communications a donné lieu à des problèmes très géné- 
raux de caractère statistique. Le premier ouvrage consacré à la 
construction et aux propriétés d’un récepteur optimal a été publié 
en 1946 par le savant soviétique V. Kotelnikov [5.16]. Un récep- 
teur optimal rend minimale la probabilité d'erreur. V. Kotelnikov 
a donné à sa théorie le nom de stabilité potentielle aux perturbations. 
Par la suite des recherches consacrées aux méthodes optimales de 
réception des ondes radio ont été poursuivies intensément en U.R.S.S. 
et à l’étranger. 

Vers 1950 les branches mathématique et technique de la théorie 
des décisions statistiques ont fusionné. Les travaux du savant amé- 
ricain D. Middleton et autres ont montré que les méthodes de la 
théorie des fonctions de décision peuvent être appliquées avec succès 
à la résolution des problèmes relatifs au meilleur procédé de récep- 
tion des signaux en présence des bruits [1.12, 1.13, 5.17-5.22]1. Nous 
montrons dans ce chapitre et les chapitres suivants que les méthodes 
de la théorie des décisions statistiques permettent de résoudre égale- 
ment les problèmes de la théorie de la commande automati que. 

Considérons d’abord les problèmes principaux de la théorie des 
décisions statistiques appliqués aux systèmes de communication. 
Sur le schéma fonctionnel d’un système de communication (fig. 5.8) 
FE désigne l’émetteur, CC la chaîne de communication, À le récep- 
teur. Le signal transmis par l’émetteur est noté s (4), celui reçu par 
le récepteur x (t). Dans la chaîne de communication le bruit # (?) 
vient entacher le signal s (4). Par conséquent 


xt) = xis(t), nr (A1. (5.10) 
Dans un cas particulier, par exemple, 


x (t) = s (9 + n (#. (5.11) 
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Supposons que certains paramètres du signal transmis sont 
inconnus (s'ils étaient tous connus, il n’y aurait aucun besoin de 
transmettre ce signal). Mais il se peut qu’on connaît leur répartition 
probabiliste a priori; cette répartition peut s’obtenir, par exemple, 
par traitement des données statistiques accumulées pendant une 
longue période révolue. Supposons encore qu’on connaît le mode de 
combinaison du signal et du bruit dans la chaîne de communica- 
tion, c'est-à-dire le type de la formule (5.10). Admettons de plus 
que les caractéristiques probabilistes du bruit » (f) sont connues. 

Voici la formulation du problème : soit le signal x (# appliqué à 
l'entrée du récepteur À en un intervalle de temps fini de t — 0 à 


| 
pr + £ nu p —< 
RE OR 

Fig. 5.8. 


t = T, c'est-à-dire 0 < 1 L T. Sur la base de ia réalisation reçue 
du signal x (t) il faut déterminer, par un procédé dans un certain 
sens optimal, les paramètres inconnus du signal transmis s (4). Sup- 
posons que cette solution s'obtient automatiquement dans le récep- 
teur À et est fournie à sa sortie sous La forme d’un signal d (fig. 5.8). 
Trouver l'algorithme du récepteur optimal. 

Pour concrétiser le problème, il faut indiquer le critère d'optima- 
lité et les paramètres du signal s (f) qui doivent être déterminés. 
Suivant la formulation du problème, divers types de problèmes et de 
théories sont possibles. 

1) Théorie des décisions bialternatives. Soit un seul paramètre 
A inconnu. Le signal s (ft) peut s’écrire, par exemple, 


s(t) = À sin (@ot + Po), (5.12) 


où &w, et p, sont donnés. Dans la théorie des décisions bialternatives 
on considère le cas où le paramètre inconnu ne peut prendre que 
deux valeurs possibles À, et À, avec des probabilités a priori p (4:) 
et p (42) respectivement. Dans un cas particulier 4, £ 0, À: — 0. 
Ce problème s’appelle problème de la détection du signal. 

2) Théorie des décisions multialternatives. Dans cette théorie 
on pose que le paramètre inconnu À peut prendre r valeurs possibles 
différentes À:, A», ..., À, avec des probabilités a priori p (Ai), 
p (42), ..., p (A,) respectivement. 

3) Théorie d'estimation des paramètres. Soit le paramètre inconnu 
À qui peut prendre dans un certain domaine Q@ (4) une valeur quel- 
conque avec une densité de probabilité a priori P (4). La théorie de 
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l'estimation des paramètres permet de construire un récepteur opti- 
mal qui donne à la sortie la meilleure dans un certain sens estimation 
de la valeur du paramètre À du signal transmis s (?) sur la base de 
la réalisation reçue x (t). 

4) Théorie d'estimation des processus. Nous avons posé ci-dessus 
qu'au cours de la transmission le paramètre À du signal transmis 
est constant. Or, il se peut que À soit une fonction du temps: À — 
— À (t). Le problème consiste à définir de façon optimale la forme 
et les paramètres de cette fonction. 

Les problèmes énoncés ci-dessus ne sont pas les plus généraux. 
Dans le cas général le signal transmis peut avoir plusieurs paramè- 
tres inconnus que nous allons noter da, @o, . . ., 4m: 


s (1) — Sa, A2... Am le (5.13) 


Chacun de ces paramètres peut prendre plusieurs valeurs possi- 
bles ou même, dans un certain domaine, un nombre infini de valeurs. 
Si l’on introduit le vecteur des paramètres À aux coordonnées 4,, 
Œ», . Um 


À = (a, 42 ..., @m), (5.14) 


les problèmes d'estimation de plusieurs paramètres peuvent être 
énoncés sous la même forme que les problèmes relatifs à un seul 
paramètre, il faut considérer seulement que À n’est pas un scalaire, 
mais un vecteur. 

Voici quelques traits caractéristiques des formulations des pro- 
blèmes précédents. 

1) On reçoit d’abord toute la réalisation x dans l'intervalle 
0 Lt< T, puis on prend une décision d sur le paramètre À. Certes, 
une autre formulation est également possible : on commence à esti- 
mer les valeurs de À dès l'instant { = 0 en précisant l'estimation 
progressivement sur la base de l'information fournie au récepteur. 

2} Dans la majorité des cas nous allons considérer que les pro- 
babilités a priori des valeurs possibles du paramètre À sont connues. 
Les problèmes de ce type sont appelés problèmes de Bayes. 

Pour résoudre les problèmes examinés dans ce chapitre, on peut 
faire appel à des notions géométriques : l’espace du bruit, l’espace 
du signal et l’espace des observations. Introduisons d’abord la 
notion d’espace du bruit. Supposons que les mesures sont prises 


seulement à des instants discrets fi, ts, . . ., t,. Nous ne nous inté- 
ressons donc qu'aux valeurs du bruit n4, no, . . ., n, à ces instants 


précis (fig. 5.9). Introduisons le vecteur du bruit W aux coordonnées 
cartésiennes 7, No, . . ., lp: 


N — (n4, Mas - +.) n}). (5.15) 


Ce rayon vecteur dans un espace de dimension X, appelé espace 
du bruit, est représenté sur la figure 5.10. Dans notre exemple cet 
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espace est tridimensionnel.! Désignons par P (N) la densité de pro- 
babilité du vecteur NW, c'est-à-dire la densité de probabilité conjointe 
des coordonnées n4, No, . . ., Nn! 


P (W) RE (ny, No, « + y). (5.16) 


Définissons la probabilité avec laquelle l’extrémité du vecteur W 
rejoint le volume infiniment petit dQ (NW) de l’espace du bruit, par 


7x À 
conf fx ONx 
an, 
AR?) À an; 
É _ 
Pre A 
Fig. 5.10. 


exemple, un parallélépipède infiniment petit de volume 
dG (N) = dn, dns . .., dns (9.17) 


représenté sur la figure 5.10. Il est clair que cette probabilité est 
égale à *) 


La probabilité totale qu'a l’extrémité du vecteur N d'atteindre 
un certain point de l’espace du bruit Q (NW) étant égale à l'unité, 
l'intégrale de tous les volumes infiniment petits dQ@ (W) de cet 
espace est égale à l’unité: 


[ P(N)&(N)=1, (5.19) 
QN) 


l'intégration s'étendant à tout le domaine Q(N) des valeurs 
possibles de W, c’est-à-dire à tout l’espace du bruit. 

L'espace des paramètres est associé au vecteur des paramètres À 
défini par (5.14) de la même façon que l’espace du bruit est lié au 
vecteur . Cet espace est un espace de dimension m aux coordonnées 
cartésiennes ai, @o, . . ., Am Si 


P (4) = P (a, a2, . .., 4m) 


*) Cf. la figure 2.6 et les raisonnements qui s’y rapportent. 
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est la densité de probabilité du vecteur À, le produit P (À) dQ (4) 
est la probabilité avec laquelle l’extrémité du vecteur À atteint le 
volume infiniment petit dQ (4) de l’espace du signal. 

Introduisons enfin l'espace des observations ou, autrement dit, 
l'espace du signal reçu. En considérant ses valeurs discrètes x, 
Lo, - . …, % On peut (cf. également (2.97)) introduire le vecteur 


X — (mi, 22... tn). (5.20) 


L'espace à À dimensions de ce vecteur est précisément l’espace des 
observations. Si l'on connaît la densité de probabilité P (X) — 
— P (x, %o, .- . ., æx), la probabilité avec laquelle l'extrémité 
du vecteur À rejoint le volume infiniment petit dQ (X) de l’espace 
des observations Q (X) est définie par le produit P(X) dQ(X). 
Il est évident également que | 


À P(X)dQ(X)—1. (5.21) 
f(x) 

Ii convient de noter que P(N) et P(A) figurent parmi les données 
du problème, alors que P (X) ne l’est pas mais peut être défini au 
cours de la résolution du problème. 

Ainsi supposons que l’on connaisse : 

a) le type de la fonction qui caractérise le signal transmis 


st) =st{t, À); 


b) la densité de probabilité a priori P (À) du vecteur des para- 
mètres À, ou les probabilités p (4;) des valeurs particulières À; si 
les À; forment un ensemble fini ou dénombrable ; 

c) la densité de probabilité P (NW) du vecteur du bruit W ; 

d) le mode de combinaison du signal s et du bruit r dans le 
canal de transmission : 

æ = xls, n|. 


Supposons qu’on reçoit les valeurs discrètes 2%, x2, . .., 
du signal x et qu’on définit la réalisation concrète du vecteur X. 

Au fond, toute l’information sur À fournie par l'expérience est 
concentrée dans la densité de probabilité a posteriori de À. C'est 
une densité de probabilité conditionnelle ? (À | X) ou, autrement 
dit, la densité de probabilité de À sous la condition que le vecteur 
observé X soit fixé. Sous une forme développée 


F (À X) A P (a:, Œn, Am | T1 LI, +. ., Th). (5.22) 


Pour définir la densité de probabilité a posteriori on peut se 
servir de la formule de Bayes (2.13). Considérons d’abord le cas où 
le vecteur À peut prendre un nombre fini r de valeurs possibles 
41, A», ..., À, avec les probabilités a priori p (4;), p (4), . .. 
..., P (4,) respectivement. Soit P (X |] A4) dQ (X) la probabilité 
conditionnelle du fait que l'extrémité du vecteur X se trouve dans 
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le volume dQ (X) de l’espace des observations à la condition que le 
vecteur À soit donné. Trouvons la probabilité de l’événement com- 
plexe qui consiste dans ce que le vecteur des paramètres ait la valeur 
À et que l'extrémité du vecteur À rejoigne le volume dQ (X). D'après 
la formule du produit des probabilités, cette probabilité peut être 
exprimée de deux façons. Elle vaut 


p (A)IP (XI A) dd (X)] = p(AIX)IP(X)-dQ (X)], (5.23) 


où P (X } est la densité de probabilité inconditionnelle du vecteur X. 
On en tire 
2 DOHPOCE) F 
La fonction P (X]|AÀ) s'appelle fonction de vraisemblance. 
Connaissant la probabilité a priori p (4;) et ayant obtenu le signal 
transmis X, on peut déterminer à l’aide de (5.24) la probabilité 
a posteriori 
A;)P(X|4; 
PA] X)= PES (5.25) 
Le dénominateur de cette expression peut être défini de la manière 
suivante : en additionnant les expressions 


p(A4) P(X]4) = P(X) p (4;12À) (5.26) 
pour j = 1,...,r, on obtient 
2 p(4 P (KI AN=P (D Ÿ p(4:1X) (5-27) 
1 = 
d’où, compte tenu du fait que 
Zp(4ilx) 1, (5.28) 
9—= 
on à 
P(X)= Ÿ p(4) P(X|A). (5-29) 
= 


En portant cette expression dans (5.25) on tombe on définitive sur 


(Aix) LCR ELAD. (G4,..., 7. (5.80) 


JS p(49 P(X145) 
j=1 
Une formule analogue se déduit également pour le cas de la répar- 
tition continue du vecteur 4 de densité a priori P (4). Soit P (A ]X) 
Ja densité de probabilité de À pour À donné, c'est-à-dire une densité 
de probabilité a posteriori. La probabilité inconditionnelle de ce 
que l'extrémité du vecteur À se trouve dans le volume d Q (4) 
de l’espace des paramètres est égale à P (4) d@ (4), alors qu'avec À 
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fixé, la probabilité conditionnelle est égale à P (4 | À) dQ (A). La 
probabilité d'un événement complexe pour que les extrémités des 
vecteurs À et X se trouvent dans les volumes d@ (4) et dQ (X) des 
espaces respectifs est égale à P (4, X) dQ (A) dQ {X}, où P (A, X) 
est la densité de probabilité conjointe correspondante. D’après le 
théorème du produit des probabilités on a 


P (A, X) dQ (A) d@ (X) — IP (4) dQ (4)] [P (X | À) d@ (X)] = 


— [P (X) dQ (X)I IP (AÏX) dQ (A)]. (5.31) 
On en tire 
P (4)P(X|A)=P(X)P(4]|X) (5.32) 


et la formule de Bayes pour la densité de probabilité a posteriori 


p(4) P(X | À) 


P(AIX)= 


(5.33) 

Pour obtenir le dénominateur de cette formule, multiplions les 
deux membres de (5.32) par dQ (4) et intégrons sur tout le domaine 
Q (A) des valeurs possibles du vecteur À. II vient : 


P(A)P(X]|A)dR(4)= P(X) | P(A]X)dQ (4). (5.34) 
Q(4) &(4) 


L'intégrale du second membre de cette expression est égale à 
l'unité; c’est pourquoi 


P(X)-- | P(4)P(X|A)dQ (4). (5.35) 
(A) 


Cette expression doit être portée dans (5.33). On obtient alors la 
formule de Bayes sous sa forme définitive : 


P(A|X)— …__ P(4)P(X[4) (5.36) 
{ P(4)P(X |A) d@ (4) | 
Q{(À) 


Ces formules sont celles de la méthode de probabilité a posteriori 
qui consiste à choisir À de façon à maximiser la probabilité a poste- 
riori p (A ZX). Utilisant cette méthode, on obtient comme décision 
d à la sortie du récepteur optimal la valeur la plus probable de À. 

Si la répartition du paramètre À est continue, d’après la méthode 
considérée il faut choisir la valeur de À telle qu’elle maximise la 
densité de probabilité a posteriori P (4 |X). 

Il faut pourtant noter que l’application de cette méthode n’est 
possible que dans le cas des probabilités a priori connues de diverses 
valeurs de À. S'il n’en est pas ainsi, on peut appliquer une autre 
méthode décrite dans ce qui suit. 
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Considérons la fonction de vraisemblance P (X | À). Si le vec- 
teur À est donné, cette fonction ne dépend que de A: 


P (X]4) = L (À). (5.37) 


La méthode la plus simple d'estimation de À est associée à la 
fonction de vraisemblance et s'appelle méthode du maximum de 
vraisemblance. Cette méthode, proposée par le mathématicien anglais 
R. Fischer, peut être énoncée sous la forme de la règle suivante: 

La valeur la plus vraisemblable du paramètre À est celle qui maxi- 
mise la fonction de vraisemblance L (A). 

Cette règle, adoptée comme postulat, n'est justifiée que par 
des raisonnements logiques. 

Pour évaluer le paramètre À d’après la méthode du maximum de 
vraisemblance on procède comme suit: supposons que l'observation 
fournit un signal sous la forme du vecteur X. Dans le cas d’une 
répartition discrète de À, écrivons toutes les valeurs possibles de la 
fonction de vraisemblance 


L (4,), L (42), ..., L (A,). 
Après avoir comparé ces valeurs, choisissons À ; telle que 
L'(A) > L(Ar) (k=1,...,7r). (5.39) 


La valeur À ; choisie d’après cette méthode est dite la plus vrai- 
semblable. 

Cette méthode se généralise naturellement aux problèmes à 
répartition continue du paramètre À. On choisit une valeur de À 
telle qu’elle maximise la valeur de P (X | 4) = L (4). 


$ 2. Eléments de la théorie générale des décisions 
statistiques 


Soit le paramètre a du signal transmis s — af (t) qui peut prendre 
m + 1 valeurs possibles as, &1, &, . . ., am avec des probabilités 
a priori Do, Pyr Pos + + +» Pm Tespectivement. 
Supposons que le récepteur reçoit un signal entaché du bruit 
n (t). On demande de déterminer d'après la courbe x (f), observée 
dans l'intervalle 0 < t < T, la valeur du paramètre a dans le signal 
transmis. Quelle que soit la méthode de résolution, elle consiste à 
diviser l'espace des observations en m + 1 domaines l,, [',, . .. 
.., [mm qui Correspondent aux solutions à — 4, a — a, etc. 
Dans le cas considéré on peut appliquer la méthode du maximum de 
vraisemblance, du maximum de probabilité a posieriori, la méthode 
de Kotelnikov (minimum de probabilité inconditionnelle de l'erreur) 
ou une variante de la méthode de Neumann-Pearson. Dans ce dernier 
cas on s'impose les probabilités de certaines erreurs, alors que la 
somme des probabilités des autres erreurs est minimisée. 
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La généralisation ultérieure est donnée par les problèmes d’esti- 
mation des paramètres. Soit le paramètre a du signal s (£) — af (#) 
qui aunerépartition a priori continue de densité P(a).[l faut rechercher 
d’après l'échantillon reçu À — (x, x, . . ., x;,) des valeurs du 
signal x (#) ou d’après la réalisation de la fonction x (é) dans l’inter- 
valle 0 Lt T la valeur du paramètre «a dans le signal transmis. 
Soit, par exemple, x; =s;+ n; (i = 1, ..., k), alors que les 
valeurs du bruit r forment une suite de variables aléatoires indé- 
pendantes d'espérance mathématique nulle et de variance 0°. La 
fonction de vraisemblance s’écrit alors pour une valeur quelconque 
du paramètre a 


R 
; Di ri af (HP 
LG)=P(K|a)= x Exp [{, (5.40) 


EPT RS 20% 


En se guidant sur la méthode du maximum de vraisemblance, 
choisissons une valeur de a telle que la fonction de vraisemblance 
L (a) soit maximale, ce qui est équivalent à la condition 

k 


F(a)= 2 [ti —af (ti) — 


i—1 


R k k 
= Diai—2a D 'af(t)+a 2 If()=min. (5.41) 


1—= 


Egalons à zéro la dérivée _— : 
k k 
—2 2 af (4) +24 2 U (t:) = 0. (5.42) 


L'observation de la condition (5.42) minimise la fonction F (a). 
On en tre l'estimation a — a* du maximum de vraisemblance: 
k 
D if (ti) 


a* = =1 


it 
DHRDIE 


i—1{ 


(5.43) 


Pour passer au cas continu, on peut multiplier le numérateur 
et le dénominateur de (5.43) par Af. Avec At +0 et k oo les 
sommes se transforment en intégrales et la formule (5.43) devient 


T 
Îz()f(e) dt : T 
= —=— | x (t) (6) dt, (5.44) 
\ L (OP dt 0 


0 
16—0966 
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 & 
= | LF (OP dt. Là 4E) 
0 


La grandeur e, peut s'appeler énergie spécifique du signal. 
L'expression (5.44) montre que la définition de a* se ramène à la 
détection synchrone, c'est-à-dire à la formation du produit x (#) f (à, 
puis à l'intégration cohérente qui consiste à obtenir l’intégrale de 
ce produit. 

Dans le cas général le problème d'estimation des processus con- 
siste à définir la forme du signal transmis s ({). On peut la définir 
approximativement si l'on donne, par exemple, une suite des échan- 
tillons s4, S2, . . ., 5x, où * est un nombre suffisamment grand. 
IL s'agit d'estimer ces grandeurs. 

Introduisons le vecteur 


S —= (51, S9% + + CE Sx) (5.46) 


aux coordonnées cartésiennes 81, 82, . . ., S, dans un espace de 
dimension k#. Appelons cet espace espace du signal. Introduisons une 
densité de probabilité a priori P (S) de ce vecteur. Alors P (S) dQ (S 
est la probabilité pour que l’extrémité du vecteur $ rejoigne le volu- 
me infiniment petit dQ (S) de cet espace. 

Dans le cas particulier d'estimation des paramètres, le signal 
s (t) s'écrit s (f, À), où À = (a, ..., a,) est le vecteur des para- 
mètres; de plus, le type de la relation entre s d'une part et { et À 
de l’autre est connu. 

Le problème de réception peut être considéré comme un problème 
de décision, alors que le récepteur lui-même est au fond un organe 
de décision. Sa tâche est de fournir à la sortie la décision sur la forme 
du signal transmis. Si on doit estimer un processus discret, c’est-à- 
dire le vecteur S — (51, 5, . . ., 81), il faut donner les estimations 


di, . .., d, pour chacune des grandeurs s4, . . ., s,. Par conséquent, 
dans le cas général, la solution est donnée par le vecteur 
D = (di, do, .. ., dx). (5.47) 


Introduisons l’espace des décisions qui est un espace de dimension 
k du vecteur D, construit de la même façon que celui du signal S. 
Ses coordonnées ne sont plus les valeurs du signal s; mais leurs 
estimations d;, effectuées par le récepteur. Si le problème consiste à 
estimer le vecteur des paramètres À, la décision recherchée porte 
sur les coordonnées as, . .., a. En d’autres termes, la sortie du 
récepteur doit fournir r décisions d;, :.., d, qui correspondent au 
vecteur D de dimension r. Dans ce cas l’espace des décisions est 
identique à l’espace des paramètres À. 
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À chaque réalisation du signal reçu, c'est-à-dire à tout point X 
de l’espace des observations, il faut faire correspondre une décision 
D, c'est-à-dire un vecteur D dans l’espace des décisions. Toute règle 
de décision est une règle de transformation des points de X-espace 
(espace des observations) en points de D-espace (espace des décisions). 
Dans la théorie des décisions statistiques cette règle qui constitue 
l'algorithme de l’organe de réception s'appelle sératégie du récep- 
teur. 

Deux types de stratégies sont possibles. Dans le premier, à cha- 
que À fixé correspond un point défini de D-espace. Une telle stra- 
tégie s'appelle déferministe ou pure. Dans le deuxième type de stra- 
tégies, à chaque À fixé correspond une certaine densité de probabi- 
lité À (D |X) des points de D-espace. Cela signifie que le choix de la 
décision s'effectue d’une manière aléatoire; pourtant, la loi sta- 
tistique qui régit ce choix dépend de la valeur observée X. Les stra- 
tégies du deuxième type s'appellent aléatoires. 

Le deuxième type de stratégies est plus général que le premier. 
En effet, une stratégie pure peut être considérée comme un cas 
limite d’une stratégie aléatoire lorsque la variance des points de 
D-espace associés au vecteur observé À, tend vers zéro. Par ailleurs, 
les points de D-espace se concentrent pratiquement dans le voisi- 
nage immédiat d'un certain point D, (X.:) qui correspond à X, 
d’après une loi uniforme définie. A la limite, la densité de probabi- 
lité A(D]|X;:) peut être décrite par l'expression 


A(DIX9 = 81D — D,(X)l. (5.48) 


Ici Ô désigne l'impulsion unité égale à zéro aux points D 
2 D, (Xi) et infinie en D, (X 5). De plus, l'intégrale 


| 6FD— Di (Xo)l dQ (D) (5.49) 


D 


sur tout D-espace est égale à l'unité du fait que dans la formule (5.48) 
les premier et second membres sont des densités de probabilité. 

Ainsi, donner la fonction À (D | À) est au fond équivalent à 
donner une stratégie aléatoire. Dans le cas particulier où À se trans- 
forme en Ô-fonction, la stratégie devient pure. | 

La fonction A(D]|X) porte le nom de fonction de décision 
(cf. [5.15]. C'est précisément cette fonction qui définit la stratégie 
de l’organe de décision qu'il faut trouver. Dans la théorie des déci- 
sions statistiques le problème consiste à déterminer la fonction de 
décision optimale, le critère d’optimalité étant associé aux erreurs 
de la décision. 

Si le signal transmis est S et La décision adoptée D, il se peut que 
D ne soit pas une estimation correcte de S. Supposons qu'une déci- 
sion incorrecte entraîne une certaine « pénalité » dont la valeur 


16* 
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peut être appréciée par la fonction de pertes, ou de pénalisation, W 
dépendant en général de S et de D: 


W = W(S, D). (5.50) 


Dans le cas d’une décision correcte les pertes ne pouvant pas être 
supérieures à celles dues à une décision incorrecte, il vient 


W(S,D=S<W(S,DZS). (5.51) 


Pour une décision correcte, la pénalité est choisie d'ordinaire la 
plus petite, c’est-à-dire l’inégalité (5.51) est observée strictement. 
Diverses fonctions vérifient cette condition. Par exemple, lors 
de l'estimation des coordonnées S,, ..., S, du vecteur $ vn peut 
choisir 
W (S, D) — const [(ss — di}? + ... + (s, — d;)l (5.52) 
ou 


W (S, D) = const [[(as — di+...+ls, — dl}, (5.53) 


vtc. Parfois la fonction du type 


W (S, D) ={ n (5.54) 


est appelée simple, ou élémentaire. Cette fonction peut être exprimée 
par la formule 


W (S, D)—1—6(S — D}, (5.55) 


où Ô désigne la fonction Ô. 
Supposons que le signal à transmettre S soit fixé. Sous cette 
condition la décision D est en général aléatoire. En effet, première- 


ment, le vecteur À dont la valeur guide le choix de la décision est 
aléatoire par suite de la présence du bruit N. Deuxièmement, X 
étant fixé, D peut être aléatoire si le récepteur réalise une stratégie 
aléatoire. Mais si D est aléatoire, la fonction de pertes W (S, D) 
est également aléatoire et ne peut servir de mesure de qualité du 
fonctionnement d’un organe de décision. Îl est logique de prendre 
pour telle mesure l'espérance mathématique de la fonction de pertes 
qui porte le nom de risque. 

Appelons risque conditionnel r (S, À) l’espérance mathématique 
de la fonction de pertes W (S, D) pour un signal S' fixé et une certai- 
ne fonction de décision A fixée. D'après la définition de l’espérance 
mathématique, il faut prendre la moyenne de W (S, D) sur diffé- 
rentes valeurs de D. Désignons par P (D | S) la densité de proba- 
bilité conditionnelle de D pour S donné. II vient 


r(S, A)==M{W|S}= À W(S,D}P(DIS)d@. (5.56) 
: RAA CT te ob) nn : 7 
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Q (D) est ici le domaine des valeurs possibles de D et dQ son 
volume infiniment petit. Nous désignerons désormais par d& le 
volume infiniment petit de n’importe quel domaine sur lequel on 
réalise l'intégration. 

Connaïissant les conditions de l’expérience, c’est-à-dire les carac- 
téristiques probabilistes du bruit et le mode de combinaison du 
signal et du bruit dans le canal de transmission, on peut obtenir 
la densité de probabilité P (X | S). Si l’on connaît la loi du fonc- 
tionnement de’ l'organe de décision, c'est-à-dire la fonction 
A(D]|X), la fonction P (D ]|S) qui figure dans la formule (5.56) 
est définie par l'expression 


P(DiS)= | A(DIX)P(X|S)dQ. (5.57) 
Q(X) 


Dans le cas général les signaux transmis sont inconnus. On ne 
sait que leur densité de probabilité a priori P (S). Il faut donc 
prendre la moyenne du risque conditionnel r sur tout le domaine 
Q (S) des signaux possibles. Le résultat d’une telle opération noté R 
s'appelle risque total, ou moyen. La grandeur R est l'espérance 
mathématique du risque conditionnel r pour des observations distinc- 
tes lorsque la source envoie des signaux $ avec une densité de proba- 
bilité P (S) . L'expression de R s'écrit | 


R=M {r}= | r(S, A) P (S) dQ. (5.58) 
SAS) 


Dans le cas considéré d& désigne un volume infiniment petit de 
l’espace des signaux Q (S). 

Maintenant on peut énoncer le problème de recherche de la 
stratégie optimale de l’organe de décision comme un problème de 
définition d’une fonction de décision À (D | X) telle qu'elle mini- 
mise le risque moyen À. 

Tous les problèmes de la théorie des décisions statistiques sont 
des cas particuliers du problème général de minimisation du risque. 
Cette thèse peut être illustrée par un exemple tiré de la théorie des 
décisions bialternatives à paramètre unique a. Dans ce cas, dans 
les formules respectives S est remplacé par a, et D par la grandeur 
scalaire d. Supposons que le paramètre a peut prendre deux valeurs 
possibles a; et a; aux probabilités a priori p1 et ps respectivement ; 
d, également, ne peut alors prendre que deux valeurs possibles 


di (décision a —a;), 


(5.59) 


n 
_— 


do (décision a — &). 
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Soit dans l’exemple considéré la fonction de pertes 


(5.60) 


Ecrivons l'expression du risque conditionnel r (a, A). Supposons 
que les probabilités conditionnelles des décisions d, et do, poura 
fixé, soient p (d, | a) et p (dola). Dans l'exemple considéré l’inté- 
grale (5.56) est remplacée par la sonime 

r (a, A) = W (a, do) p (dol a) + W (a, di) pidila). (5.61) 


Notamment, 


r (a, À) = W (a, do) p (dol @s) + W (ai, di) p (di &) — 
= W( 


ol 
W (a, do) p (dol &) = p (dol æ) (5.62) 
et 
r (@o; A) = W (ao, do) p (dol ao) + W (ao, di) p (di! ao) — 
— W (ao, di) p (dil ac) = p (dil ao). (5.63) 
Ensuite, l'intégrale de la formule (5.58) du risque moyen R est 
remplacée dans l'exemple considéré par la somme 
R=M {r} ui (ai, A) Pi E r (os; A) Po: (5.64) 


du fait que p., et po sont les probabilités a priori des valeurs a, et as 
respectivement. En portant (5.62) et (5.63) dans (5.64), on a 


R = p5-p (di | &o) + p1°p (dol &). (5.65) 
Mais p (d, | &) est la probabilité d’une « fausse alarme »: 
D (d, | &0) = ©. (5.66) 


D'une manière parfaitement analogue on obtient p (do | a) qui est 
la probabilité de la décision a = a, alors qu’en vérité a = a,, c'est-à- 
dire la probabilité d'une « fausse fin d'alerte »: 


P (dol a) = Ê. (5.67) 
Après avoir porté (5.66) et (5.67) dans (5.65) cette dernière devient 
R = po + pi = q, (5. 68) 


ce qui signifie que dans le cas considéré le risque moyen À coïncide 
avec la probabilité inconditionnelle qg de l'erreur. C'est pourquoi, 
la condition À — min pour une stratégie optimale traduit dans le 
cas considéré la minimisation de la probabilité inconditionnelle g 
de l'erreur. On aboutit ainsi au critère de Kotelnikov. 

On peut montrer que choisissant autrement la fonction de per- 
es W on arrive à des conditions qui coïncident avec d’autres cri- 
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tères d’optimalité et, notamment, avec le critère de Neumann-Pear- 
son. 
Le problème de minimisation du risque total À énoncé ci-dessus 
ne peut être posé que si l’on connaît la densité de probabilité a priori 
P (S) du signal S. Le problème en question porte le nom de Bayes 
et la fonction A (D | X) fournie par sa résolution s'appelle décision 
de Bayes. 

Toutefois, dans de nombreux problèmes de grand intérêt pra- 
tique la densité de probabilité 2 (S) est inconnue. Dans ce cas il 
faut appliquer la formule du risque conditionnel r (5.56) dont le 
calcul n'’impose pas la connaissance de la fonction P (S). La théorie 
des décisions statistiques propose la méthode de raisonnement 
« pessimiste » suivante : on trouve d’abord le « pire » des signaux S* 
tel qu'il maximise le risque conditionnel r (pour À donné). Cette 
condition s'écrit sous la forme analytique suivante: 


r (S*, À) = maxr(S, A). (5.69) 
(S) 
Comparons maintenant les diverses fonctions de décision et 
sélectionnons celle d’entre elles (appelons-la A*) qui rende minimal 
le « pire » risque conditionnel r (S*, A). Ainsi: 


r (ST, AË) = minr(S*, À) = min maxr(S, A). (5.70) 
(A) (A)  (S) 


La décision A est dite décision du minimax et la stratégie qui 
lui correspond stratégie optimale du minimax. 

C'est une stratégie qui dans le pire des cas donne un résultat 
meilleur (c'est-à-dire une valeur plus faible du risque r) que toute 
autre stratégie dans le pire des cas pour cette dernière. 

On aurait tort pourtant du point de vue pratique de se guider 
par ces considérations si les pires conditions du fonctionnement sont 
très rares. L'approche du minimax n’est donc pas du tout la seule 
possible. Depuis Laplace on recommande parfois, dans le cas où la 
répartition a priori  (S) est inconnue, de la considérer comme uni- 
forme, c’est-à-dire d'adopter a priori que dans le domaine Q (S) 
toutes les valeurs de S' sont équiprobables. Fait curieux à noter 
qu’une telle approche conduit souvent à la stratégie du minimax. 

Il convient de noter également que la stratégie optimale du 
minimax À n'est au fond nullement une stratégie uniformément 
optimale pour tout signal $. Pour différents types de signaux, elle 
peut donner un résultat pire que les autres stratégies. 

Les notions de risque, de stratégies de Bayes et du minimax 
exposées dans ce qui précède se présentent par leur autre côté si 
l’on introduit encore un espace, l’espace du risque. Considérons cet 
espace pour le cas le plus simple de la théorie des décisions bialter- 
natives lorsqu'il se transforme en un plan. Etudions d’abord les 


248 ACCUMULATION INDÉPENDANTE DE L'INFORMATION [CH. V 


stratégies pures D;. Supposons qu'on a adopté une stratégie quel- 
conque D;. Soit r (a, D;) le risque conditionnel lié à l'application 
de cette stratégie dans le cas où a = a,. Rappelons que cette expres- 
sion est l’espérance mathématique de la fonction de pertes à la con- 
dition que a = a, et que l’on applique la stratégie D,. Mais si 
a = &1, l'application de la stratégie D, est liée au risque condition- 
nel r (a, D). 

Portons les valeurs du risque conditionnel r (as, D) et r (ai, D) 
sous la forme de coordonnées cartésiennes dans un plan que nous 
appellerons plan du risque (fig. 5.11). A la stratégie D, correspond 
le point D, de coordonnées 
r (ao, DA) et ra, D:) dans 


D ‘ 

GE pb le plan du risque. Pour une 
p 5 autre stratégie D>, les risques 
Sn / conditionnels 7 (as, D>) et 

( 4 An 
| ; r (&, D») auront en général 
| ; Fe d’autres valeurs. Dans le plan 
mbilesesaent À du risque cette stratégie cor- 
| IS respond à un autre point De. 
| D D Plus le risque est petit, 
| | | meilleure est la stratégie. Tou- 
D r@,D oo r(G,,D) tefois, une comparaison direc- 
Perte 7 7 te des stratégies D, et D» 
Fig. 544. dans le plan du risque ne 


rend pas toujours possible le 
choix de l’une d’elles. Par 
exemple, la valeur du risque r (a, D;) pour la stratégie D, est plus 
faible que la valeur respective r (a, D2) pour la stratégie D»: (cf. 
fig. 9.11). Maïs par contre le risque r (as, D>:) associé à la stratégie 
D, est plus faible. Il est clair que la stratégie D, doit être rejetée 
du fait que pour cette stratégie les deux risques conditionnels r (ao, D ;} 
et r (a, D,) sont plus grands que pour la stratégie D1. 

Jusqu'à présent nous n’avons figuré dans un plan du risque que 
les stratégies pures. Or, les stratégies aléatoires peuvent également 
être représentées dans le plan du risque. En effet, imaginons que 
nous choisissons soit la stratégie D, avec la probabilité g, soit la 
stratégie D, avec la probabilité g>. Désignons cette stratégie aléa- 
toire par D. Le risque conditionnel r quand a = &; est égal alors 
à la valeur moyenne 


r (ao, D) = qir (ao, Da) + qoer (ao, D). (9.71} 
D'une manière analogue 
T (a, D;) = gr (as, D;) + qer (ai, D). (9.72) 


On voit aisément que le point D; de coordonnées r (as, D:) 
et r (a, D;) repose sur la droite reliant D: et D. 
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Comme gi + g» = 1 et gi varie de 0 à 1, le point D, peut prendre 
une position quelconque sur le segment D,D, en se déplaçant de 
D, à D. Les stratégies pour lesquelles on emploie d’une façon aléa- 
toire les différentes stratégies pures sont dites parfois mixtes. On en 
tire qu’à tout point du segment entre deux points matérialisant. 
des stratégies pures correspond une stratégie mixte. 

Réunissons maintenant les points D: et D; par une droite (trait. 
interrompu de la figure 5.11). À tout point du segment en pointillé 
correspond alors une certaine stratégie mixte. Elle s'obtient en 
appliquant les stratégies D, et D: avec des probabilités définies 


T(Gy:0) 


(2,2) 


: A rap) D 


a) 


Fig. 5.12. 


(ce qui conduit finalement à l’application, avec certaines probabi- 
lités, de trois stratégies pures D, D, et D:). Réunissant de la même 
façon des points quelconques des stratégies obtenues auparavant, 
on peut voir que n'importe quel point intérieur du polygone convexe 
formé par les stratégies pures primaires, par exemple par D, Da, 
D;, D,, D; de la figure 5.12, correspond à une stratégie mixte quel- 
conque. Sur la figure 5.12 ce polygone est hachuré. Si un point 
associé à une stratégie pure primaire quelconque D, se trouve à 
l'intérieur du polygone, il ne participe pas à sa construction. 

Quelle est l'interprétation de la stratégie de Bayes dans le plan 
du risque ? Se donnant les probabilités a priori ps et p: des valeurs 
&s et &, respectivement, on obtient le risque moyen À d'après la 
formule 


R = pair (a, D) + por (ao, D). (5.73) 

La droite À = const dans le plan du risque est une droite de 
pente Si po et p1 sont donnés, la pente de la droite À — const 
est également donnée. Admettons que c'est la droite AB sur le 
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figure 5.12, a On voit sans peine que la valeur du risque R pour 
les points de cette droite, c’est-à-dire le premier membre de l’équa- 
tion (9.73), est proportionnelle à la longueur de la perpendiculaire 
OËE abaïssée de l’origine des coordonnées sur la droite AB. C’est le 
ças de la stratégie D;,, par exemple. Cependant, la figure 5.12, a 
montre qu'on peut obtenir une stratégie meilleure pour laquelle le 
risque À sera plus petit. À cette fin il faut déplacer la droite AB 
parallèlement à elle-même dans le sens de l’origine des coordonnées. 
À la position extrême A’B” de cette droite correspond la plus petite 
longueur possible OÆ” de la perpendiculaire et, par conséquent, la 
plus petite valeur possible du risque total À. La droite AB ne peut 
plus s'approcher de l’origine des coordonnées car toutes les straté- 
gies possibles D se situent dans les limites du polygone hachuré. 
Une seule stratégie D, correspond à la position extrême AÀ'’B” de la 
droite; c'est précisément la stratégie optimale. La construction 
rend évident qu'une stratégie optimale correspond au sommet du 
polygone. Et puisque tous les sommets correspondent à des straté- 
gies pures, on en tire une conclusion de grand intérêt. 

Une stratégie de Bayes optimale est une stratégie pure. 

Cette conclusion est vraie également pour des problèmes bien 
plus généraux que le problème examiné. 

Toutefois une stratégie optimale n’est pas toujours une stratégie 
pure. Lorsque le problème est considéré en se guidant par le principe 
du minimax, il faut chercher une stratégie D* capable d’assurer 
une valeur minimale du maximum du risque conditionnel r (a, D*), 
<’est-à-dire permettant de choisir la moindre des deux valeurs maxi- 
males possibles de r (as, D*) et de r (a, D*). Pour déterminer la 
stratégie optimale du minimax menons la bissectrice UF de l’angle 
compris entre les axes de coordonnées. Supposons que la bissectrice 
OF coupe le polygone des stratégies. Soit un certain point qui se 
déplace de l’origine suivant la droite OF. L'endroit de sa première 
rencontre avec le contour du polygone correspond précisément à la 
stratégie D*. En effet, pour ce point les deux valeurs du risque 
O0G = ras, D*) et OH = ri(a;, D*) sont égales entre elles et 
inférieures au risque maximal r pour tout autre point du polygone. 
Ainsi, pour le point D; le risque maximal r (a;, D) est plus grand 
que OG. 

Dans le cas général, la bissectrice OF ne coupe pas le polygone 
à l'un de ses sommets. C’est pourquoi la stratégie D* est mixte et 
non pas pure. On en tire la conclusion importante : 

Une stratégie optimale du minimax est une stratégie aléatoire. 

Dans un cas particulier, la stratégie optimale du minimax peut 
être une stratégie pure. Supposons, par exemple, que la bissectrice 
OF ne coupe pas le polygone D,D:D,D,D; (fig. 5.12, b). Associons 
au point L, qui se déplace de l’origine des coordonnées suivant la 
bissectrice, la droite verticale ZG et la droite horizontale LH. La 
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stratégie optimale correspond au point du polygone qui rencontre 
le premier l’une de ces droites : sur la figure 5.12, b c’est D4. 

Toutes ces conclusions s'étendent à une large classe de problèmes. 
Par exemple, la généralisation à la théorie des décisions multialter- 
natives consiste à remplacer le plan du risque par un espace de dimen- 
sion m + 1 aux coordonnées r (&, D), r (æ, D), ..., r (am, D). 
Les méthodes et les résultats, décrits ci-dessus pour un plan, s'éten- 
dent complètement au cas d’un espace multidimensionnel. 


$ 3. Application de la théorie des décisions 
statistiques aux systèmes de commande automatique 


L'application de la théorie des décisions statistiques aux systè- 
mes de commande en boucle ouverte ou aux systèmes réductibles 
aux systèmes de ce type ne diffère pas en principe de l'application 
aux problèmes de la théorie des communications. Pourtant, la 
littérature consacrée à ces problèmes est moins riche. Citons [5. 23] 


Pre ", 
ir qu À Le; B + 


Fig. 0.13. 


qui examine la théorie du système optimal d'identification des 
images basée sur la théorie des décisions statistiques; [5.24] qui, 
avant d'exposer la théorie des systèmes en boucle fermée, étudie 
un système en boucle ouverte; dans [5.25] sont exposés certains 
concepts fondamentaux de la théorie des décisions statistiques et 
donné un exemple très simple d'application de cette théorie au 
calcul d’un système de commande, ce dernier se ramenant en fait 
à un système en boucle ouverte. 

Considérons le système de commande en boucle ouverte repre- 
senté sur la figure 5.13 [5.24]. Pour simplifier, supposons que dans 
ce schéma les grandeurs sont des scalaires et des fonctions du temps 
discret & — 0, À, ...,s,..., n, où n est fixé. Soit la consigne 
x* qui s'écrit 


ai at (s, À), (5.74) 


où À est un vecteur aux coordonnées aléatoires : 


À (Ai, meer Ag). (5.75) 
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Ainsi, x$ est un processus aléatoire discret. Voici quelques exemples 
concrets d’un tel processus : 


2}. (5.76) 

xt — }4 exp {— Aus}, (5.77) 
q 

= Xi (s), (5.78) 


où f; (s) sont des fonctions connues. 

Dans le cas particulier de (5.76) le processus aléatoire dégénère 
en variable aléatoire A4. 

Soit la densité de probabilité a priori P (À) du vecteur À. 

Supposons que la densité de probabilité P (hf) du bruit h* dans 
une chaîne sans inertie Æ*, ainsi que le mode de combinaison du 
signal x* et du bruit k* dans cette chaîne soient connus. On peut 
calculer alors la probabilité conditionnelle P (y* | xÿ). Cette fonc- 
tion est la même pour tout s, car la densité P (h*) pour le bruit 
est considérée comme invariable. Admettons en outre que x, h$ 
et toutes les autres actions extérieures sont indépendantes. Soit, 
enfin hRŸ (i — 1, ...,n) une suite de variables indépendantes. 

Dans le cas le plus simple l’objet commandé B est sans mémoire 
et son opérateur est donné _ l'expression 


= F (23, Us)» (9. 79) 


où F est la fonction connue, tandis que la _perturbation zs dépend 
du temps discret s et du vecteur aléatoire nu: 


Zs— 2 ($, LU). (2.80) 
Le vecteur u compte m coordonnées : 
HE (ls ee, Ham). (5.81) 


Soit P (u) la densité de probabilité a priori. La grandeur d'entrée 
v, du système B se forme à la sortie de la chaîne d'action sans iner- 
tie G. En passant par cette chaîne la commande w, est entachée du 
bruit g, dont la densité de probabilité P (g.) est invariable. 

Les valeurs g, constituent une suite de variables aléatoires indé- 
pendantes. 

Désignons par W,(s, xé, x) la fonction de pertes élémentaire 
qui correspond à l'instant discret s. Supposons que la fonction de 
pertes totale W est égale à la somme des fonctions de pertes élé- 
mentaires 


s—0 
Le problème consiste à définir la stratégie optimale de l’organe 


de commande À. Dans le cas général, on considère que cette stra- 
tégie est aléatoire. La densité de probabilité de la commande u, 
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à l'instant £ — s est désignée par [', (w.). En général, cette gran- 

deur doit dépendre de toute l'information d'entrée emmagasinée 

par l’organe de commande À en un temps & — 0, 4,...,s— 1, 

c'est-à-dire des valeurs yÿ, y, . . ., y#_4. | 
Introduisons les vecteurs temporels 


yé = (y5, UT ..) ys); | 


> 
(ris 42) C0, sn): 


(5.83) 


+ 
Les coordonnées du vecteur y* constituent une suite des valeurs 
du scalaire y* aux instants à — 0, 1, ..., s. Des suites analogues 


des valeurs de la grandeur z* forment un vecteur temporel x£. Nous 
désignerons les vecteurs temporels par une flèche au-dessus de la 
lettre correspondante. 

Comme la stratégie optimale, c’est-à-dire la densité de proba- 


> 
bilité optimale [', (u.), dépend du vecteur y*_,, on peut la repré- 
senter sous la forme d’une densité de probabilité conditionnelle 


l'. (us|y$-1). Le problème consiste à rechercher les distributions 
optimales l', pour tous les instants £ — 0, 1, ...,s,...,n. 
Il faut sélectionner les fonctions FL, (s — 0, 1, ..., nr) de façon 
à minimiser le risque moyen À, c’est-à-dire l’espérance mathéma- 
tique de la fonction de pertes W: 


R=M{W}= M! ÿ W} — ; M {W.}— > Rs, (5.84) 


où la grandeur 
R:=M{W,(s, té, x} (5.85) 
peut se nommer risque élémentaire. Le risque élémentaire R, corres- 


pond à l'instant discret £ = s. 
Désignons par P (x, | u.) la densité de probabilité conditionnelle 


— — 
de x, avec u, fixé. Soit, ensuite, P (y5-11 x) la densité de pro- 


babilité conditionnelle du vecteur y*_, pour x, fixé. Les hf étant 
indépendants, “on a 


— —+ Lt: 
P(yia ass) = Po vi, +. yéna [asn) = 
s— 1 En s— 1 
= 1 P@IS1) = [| PGIe). (5.86) 
Puisque le vecteur t*_ dépend de s et de À, l'expression (5.86) 


dépend également de s et de À. La figure 5.14 représente Le schéma 
ans lequel l’action des facteurs aléatoires de chaque bloc du système 
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est prise en considération par introduction de densités de probabi- 
lité conditionnelles. 


‘ + 

Désignons par Q (x,, v., us, y*_1) le domaine de variation des 
paramètres Ts, Us, Ur U6r + « :, Y$-s. On peut l’imaginer sous la 
forme d’un espace de dimension (s + 3) des coordonnées cartésiennes 
constituées par tous les paramètres indiqués ci-dessus. Soit. 


dQ (x,:, vs, Us, Us) dr.dv.du.dyi . . . dy Dans ce qui suit, 
le volume infiniment petit d'un domaine quelconque est noté par dQ: 
on comprend toujours de quel domaine il s’agit. 


HAE) ul)  Plmits)  P&sl#%) 
M 8 [el 5 :Æ 


TS » |. . 
ER LR Re 


Fig. 5.14. 


Ecrivons d’abord l'expression du risque conditionnel élémentaire 
r, en entendant par là la valeur du risque élémentaire pour le vecteur 


fixe x ou, ce qui revient au même, pour le vecteur fixe À. Il vient 
re M{W. | 25} = | Wi(s, st, x) Pr) dQ. (6.87) 


Q(xs) 
La moyenne de W, est prise ici par rapport à la variable aléatoire 


—> 
zx. Puisqu’on considère que x? est fixé, en calculant la moyenne il 
faut utiliser la probabilité conditionnelle de x, pour z* fixé, c'est-à- 


dire la fonction P (x, | x*). 

Etant donné que x, dépend de la grandeur d’entrée v, de l'objet 
B, on peut, connaissant la caractéristique probabiliste a priori de 
la perturbation z,, trouver P (x, | v.) (fig. 9.14). Mais la grandeur v, 
est elle-même une variable aléatoire et la loi de sa répartition dépend 


+ — 
en définitive de x, c'est-à-dire est la fonction P (v, | x*). La relation 
entre ces densités s'écrit 


P{a|at)= À P{aslu) P (1e) de. (5.88) 
(vs) 
En portant (5.88) dans (5.87), on a: 
rs — W,(s, à, r) Pr) P(v.lzt)d@. (5.89) 
Q(xs, ds) 


Développons l'expression (5.89). 
Connaissant P (v,| u,) on peut trouver la densité de probabilité 


P (v,|x*)— | P (vslus) P (us|x*) dQ. (5.90) 


Q(Us) 
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D'une façon parfaitement analogue on obtient l'expression 
Pluelé)= À Lulyta)P(ytalati)dO, (5.91) 
OX) 
où l'intégration se fait sur le domaine Q{yr, ..., yE 1) = Q (yE 1). 


En portant (5.91) dans (5.90) et (5.90) dans (5.89) on aboutit 
à l'expression pour le risque conditionnel élémentaire 


re M{W;]| 2} — | W(s, z*, &) P (al vs) x 
Q(rs, vs, us, VX) 
X P (vslus) ls (us |ys-1) P (yé-1 1 x$-1) dQ2. (5.92) 


Le facteur P (y#_, | x*_1) sous le signe somme dépend du vecteur 


À. Désignons par Q {À) le domaine de variation du vecteur À. Dans 
les différentes expériences ce vecteur peut prendre des valeurs diffé- 
rentes. C'est pourquoi le risque conditionnel élémentaire r, a égale- 
ment, suivant l'expérience, des valeurs différentes et constitue de 
ce fait une variable aléatoire. Le risque élémentaire moyen À, peut 
s'’obtenir en calculant la moyenne du risque conditionnel r,; par 


rapport à À: 


= À r.P (à) dQ, (5.93) 
ai) 
En portant (5.92) dans (5.93), il vient : 
ee | Ws, xt, x) P (æs| vs) P (vs | us) x 


— 


Q(xs, Us, vs, VE À) 
x Deus |vé-4) P (yi-1]2%21) P (D dQ. (5.4) 


Le problème consiste à choisir les fonctions l', telles qu'elles 
minimisent les valeurs de À, et par conséquent le risque total P — 


co 
— à Re 

Considérant le problème énoncé, on voit sans peine qu'il ne se 
distingue en rien au fond des problèmes de la théorie des communi- 
cations examinés au $ 2 de ce chapitre. L'élément A* de la figure 
9.13 peut être envisagé comme un canal de transmission avec le 
bruit k*, alors que les éléments À, G, B peuvent être réunis et nom- 
més récepteur. Ce dernier problème diffère pourtant quelque peu 
des problèmes résolus au $ 2. Citons certaines de ses particularités : 

a} Le «récepteur» du système comprend les éléments donnés G 


+ 


et B. Le problème consiste à rechercher l'algorithme d'une seule 
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partie À de ce système. Constatons que la théorie des communica- 
tions compte également des problèmes analogues. 

b) A l’intérieur de l'organe « récepteur » du système il existe 
des perturbations aléatoires g, et z. Un problème analogue peut 
également être posé pour un système de communication qui donne 
lieu à des bruits de fond. 

c) Dès le début du processus il faut obtenir à la sortie x, de 
l'objet B une grandeur telle qu'elle minimise l'espérance mathéma- 
tique de la fonction de pertes. Ainsi, lorsque 


W, = (x* — x)? (5.95) 


il faut, évidemment, minimiser une certaine mesure de l'écart de 
la « décision » x, du « signal transmis » x$. Dans le cas idéal x, = 
— 3% et W, atteint sa valeur minimale égale à zéro. Pourtant, les 
perturbations aléatoires qui se superposent sur le signal « reçu » 
y$ ainsi que les bruits de fond g, et z, du « récepteur » du système 
font que les erreurs de décision sont inévitables et, en général, x, 
ne coïncide pas avec 2. Cette formulation du problème diffère de 
celle du problème du $ 2 par ce que dans ce dernier la décision ne 
devait être prise qu'à la fin de l’observation du signal reçu, alors 
que dans le cas considéré, la décision doit être élaborée continûment, 
simultanément avec la réception du signal x (décision courante). 
Récrivons l’expression (5.94) sous la forme suivante : 


R= | Pal) P(Iu)Tu|yEn x 


> 
Q(xs, Vs, Us; y 1) 


x À À Wots,aë, (s, D), a] Palau) x 
QU) 
x P(R) dQ(N) dQ (xs, Us, Ve V1). (5.96) 
Introduisons la fonction 


Os — Ps Ê yY_4) . W: [s, &s (s, à), Ts] X 
aoû) 
XP(ytala 1) PDA. (5.97) 


L'expression (5.96) peut se mettre alors sous une forme plus 
condensée 


R; — | P (zelvs) P (vs fus) X 
Qxs, Ds, Us, PER 


X r'; (Us | yX4) re (Ze, y#s) aQ. (5.98) 
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La formule (5.98) montre que le choix de la fonction l', avec s 
fixé n'influe que sur le terme À, du risque total À. Par conséquent, 
il suffit de prendre dans la formule (5.98) une fonction l', telle 
qu'elle minimise le risque élémentaire R,. Cette fonction sera ‘égale- 
ment optimale dans le sens de minimisation du risque total À. 
T', étant la densité de probabilité, l, => 0 et, de plus, 


T', (us [yE1) dO = 1. (5.99) 
Aus) 
L'expression (5.98) peut s’écrire : 


R, = | Di(uslué-s) { | Po) Peu) 

Aus, VE 1) Fr. 

X Pa (to, V1) dQ (as, ve) } dQ (us, 5-1). (5.100) 

L'intégrale dans l’accolade est la fonction de z, et de yE que 
nous allons noter Ë,(u,, ys_1): 


EG in) À P(alvs) P(vfwe)pe(zs ÿ%-1)d@. (5.101) 
Q{xs, Vs) 


Cette fonction peut s’obtenir à partir des données du problème. 
(5.101) et (5.100) entraînent 


Ro | Elu, y) low] yt:) de 


— 
us, y) 


= | GE) GE), (65102 


26/4) 
où 
T(Ui1)— À Do(ue|yËs) Es(us, ÿ}-1) d@. (5.103) 


Gus) 
La formule (5.102) montre que le risque R, est minimal si pour 
tout y5_, la fonction Z est minimale. Par conséquent, dans l'expres- 
sion (9.105) il faut choisir [, tel qu'il minimise l'intégrale Z (y*_) 


pour une valeur quelconque du paramètre DEP 
Le théorème de la moyenne et le fait que les fonctions sous le 
signe somme de (9.103) sont positives permettent d'écrire 


I ( 1) = (És)moy. |. L's CAPES 1) ds? — (Es)moy > (Es)mine (b: 104) 
Q(us) 
17—0966 
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où (E s)moy est la valeur moyenne et (Ë.)min la valeur minimale de 
£.. D'après (5.99) l'intégrale dans (5.104) est égale à l'unité. Par suite 


de l'expression (5.104), la valeur minimale possible de Z (y*_4) est 
égale à (Ë;)min On montre sans peine que cette valeur de 7 s'obtient 
si la fonction [’, est choisie de la façon suivante *). Soit uf la valeur 
de w, qui minimise la fonction E, (4,) dans le domaine Q (u.) des 
valeurs possibles de z.,. De plus, en donnant des conditions supplé- 
mentaires on peut limiter d’une certaine façon le domaine Q (u.). 
Il se peut que Ë, (us) est le plus petit de plusieurs minimums locaux 
de la fonction &,(,). Quoi qu’il en soit, considérons que nous 
avons trouvé upe valeur de w, telle que 


Gs (us) — pu Gs (Us). (5.105) 


Considérons maintenant la fonction 
le (us) — Ô (us — us), (5.106) 


où Ô est l'impulsion unité (impulsion de Dirac). Il est clair que la 
fonction L' vérifie la condition (9.99), car l’intégrale de l'impulsion 
unité sur tout le domaine {2 (u,) est égale à l'unité. Il se trouve que 
l'expression (5.106) donne la fonction optimale l'£. Pour le montrer, 
signalons une propriété connue de la fonction 6 : pour toute fonction 
continue (x) 


| O(z—x*) p (x) dr = p (x*). (5.107) 


Cette propriété se généralise aisément au cas de l’intégration 
multiple, c'est-à-dire de l'intégration sur un domaine multidimen- 
sionnel. 

Portons (5.106) dans le premier membre de (5.105). Il vient 


[7 CHAR RU UA 0) — | Ô (Us— us) ês (Us, yt-1) das — 
Qu.) 


= Es (u$) — (Es)min = (Z)min. (9.108) 


Par suite, 7 atteint sa valeur minimale lors de l’utilisation d’une 
stratégie (5.106). Die 
Ainsi, comme on le voit de la formule (5.106), la stratégie opti- 
male l'Ÿ est une stratégie pure. Dans le cas considéré, on pouvait 
d’ailleurs le prévoir puisqu'il s’agit d’un problème de Bayes et les 
probabilités a priori sont données. Nous avons montré au paragraphe 


#1} “r est considéré ici comme un paramètre et ne s'écrit pas sous üne forme 
explicite. 
+ 
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précédent que dans la théorie des décisions bialternatives la straté- 
gie optimale de Bayes est une stratégie pure. Gette règle se confirme 
également pour un cas plus complexe. 

L'algorithme optimal d’un organe de commande consiste à 
choisir la valeur u* telle qu’elle minimise la fonction Ë, 


Eu, y_4)— min Es (us, ph). (5.109) 
(u,) 


On en déduit que u* est une fonction de yÉ 
uX = uë (y*_1). (5.110) 


Ainsi, comme il fallait s’y attendre, le choix optimal de la valeur 
de u, à l'instant {£—s dépend généralement de toute la « préhis- 
toire » des signaux ÿi observés par l’organe À, L ’est-à-dire de la 
suite des valeurs yÿ, yf . - ., yS-4. 


Si la fonction E, (u., y“) est calculée au préalable, en y por- 

Er d 
tant le vecteur y*_, enregistré par l'organe de commande À et en 
minimisant Ë, par rapport à u, on peut trouver la valeur recherchée 


NÉ: 


Ÿs 


Ys Ésluss Ÿs ) 


| 
vers la sortie 
Fig. 5.15. 


de la commande optimale courante uf. Le schéma fonctionnel d’une 
version possible de l’organe de commande optimal À est représenté 
sur la figure 5.15. Les valeurs courantes y$ sont fournies à la 
mémoire où s’accumule la suite yô, . . ., y$_1, c'est-à-dire le vecteur 


— 
y$_s. La valeur de ce vecteur est ensuite transmise au bloc £ dans 


lequel s’élabore la fonction Ë,{(u,, y*_1). La valeur de z, de la 
sortie de l’optimaliseur automatique ÜÀ est appliquée à la deuxième 
entrée du bloc £. L’optimaliseur automatique choisit la valeur de 
nus LE optimaliseur automatique choisit la valeur de u, = u* 
de façon qu'elle minimise la fonction &E,. La valeur u apparaît 
à la sortie du bloc À. Bien entendu, dans les schémas réels nul besoin 
n’est de retenir chacune des valeurs y6, yf, . . ., y$.4. Il ne faut 
garder en mémoire qu'un petit nombre de fonctions y, . . ., Vsp 


17+ 
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de ces valeurs où p n'est pas grand, dites statistiques exhaustives 
(coordonnées suffisantes). 


Il est difficile souvent d'obtenir la formule de Ë,(u,, y#_s) 
sous une forme explicite. Dans ce cas, le bloc Ë peut représenter un 
calculateur qui effectue automatiquement l'intégration d’ après 
l'expression (5.101). A la sortie de ce bloc on obtient la valeur numé- 


; : < es = Le 
rique de Ë£, qui correspond aux valeurs de y$_ et u, à ses entrées. 


dY 
7 % 


$ 


ù 
A: 


+ 
{ 
[ 
l 
= dem v mem d 


8, 
ns 


Fig. 5.16. 


Considérons à titre d'exemple le schéma fonctionnel d’un système 
simple représenté sur la figure 5.16. 

Les équations de ce système s’écrivent 

y: — EH + h*, 
Us = Us Es; (5.111) 
Ls —Vs-+ M. 

La première de ces équations décrit les propriétés de la chaîne 
H#, la deuxième de la chaîne G. La dernière équation est celle de 
l’objet B. 

Soient A* et g, les suites des variables aléatoires indépendantes 
normales, de moyennes nulles 


ns 1 (REY? 
PAIE {— 20% } : 
1 … (Be 
P()=—— exp {Se}. 
g 


Dans l’exemple considéré le vecteur u est remplacé par la variable 
aléatoire u de densité de du Se 


Pi)=a = exp { — (5.112) 


Soit z* — À, où À est Fe variable aléatoire normale de densité 
de probabilité a priori 


A 1 a. (À — À)? 
PA) = exp { SE he (5.113) 
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On se donne la fonction de pertes sous la forme 
n ñn 
W= D We À (aix). (5.114) 
s—{ $—=0 ; 


Il faut chercher l’ algorithme optimal de l’organe de commande À 
tel qu'il minimise l'espérance mathématique de la fonction W. 
Cherchons d’abord la fonction p, en utilisant l'expression (5.97) : 
8— 1 
Ds — Ps (ts, YE-1) — { (Aix) fl P(y|A) P(Q)dA. (5.115) 


Etant donné que hf — y} — x} — y; 7. 


1 (vf — À}? 
P (HA) = 7 exp {—-- (5.116) 
En portant (5.116) et (5.113) dans l'expression (5.415), il vient 
:4 
Dr 


(on) 03 (2x) ? 


rs 2 ss (À — ho)? 
i— — A9 
x | (—a)exp | — og [du (5.117) 


— CO 


Introduisons les notations 


0? + s0? 
a gt 7 
s+1 2090? | 
(0n)s 61 (27) ? 
s—1 | —1 ; (5.118) 
% 2: y} + Ào0ÿ | À > (YF)? + 100$ 
_ i=0 ” nie _ 
B;.: Fe 020? 3 Cs-1: 2020? 


La formule (5.117) s'écrit alors 
pe aexp{—Cis | (A—m)"exp{— A+ B 12) 4h. (5.119) 


Utilisons la formule connue (cf. par exemple, [5.26]) 
( Less) on LE 
js exp {— px + 2qx} de = : (1 e ) exp { : k. 


(5.120) 
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(CH. 4 
Appliquons cette formule à (5.119) et posons z = À — x, 
cette A l’ nt dE (9.119) devient 


= te + (4 Fe Le )] x 


. Avec 
L 
B.: 
X exp {cs +} 
Cherchons maintenant | 


(5.121) 
a La Puisque u—t;—1v;, on à 
P _. Ge vs)? 5.122 
(re [ vs) = —— VE exp 207 f: (5.122) 
Ensuite, étant donné que &s° ri on à 
P (vs{us) == P(e s = Us — TVE exp {—" a eus) à 
(5.123) on obtient 


(5.123) 
D'après (5.101) et (5. en et compte tenu de (5.122) et de 


B°. 
Ës — b exp {-c.. + il 


mi Î (+ (ar 


Bs_1\? 
7) |x 
dd 
| t (ts — vs)? (v, — u,)? 
{Top {— Cr ur 
A u 
où 


E dus} des, (5.124) 


Posons 


(5.125) 
cri + 0 ER 
ET x 2 
OC? ts + Où Us: 
B: = -£- our | (5.126) 
+ ah | 

un re j 

L'intégrale dans l’accolade de (5.124) devient 


10-=exp{— a) À exp {— vu? + fie} dos. (5.127) 
En appliquant la formule (cf. [5.26]) 


— 00 


2 _ fa À 
À exp {— pr + gx} dx 5 XP e- } (5.128) 
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on aboutit après calcul à 


1 exp { (5.129) 


En portant (5.128) dans on os on 


Ë— [op/ Æ exp {- Cost LS (n+-2), (5.130) 


où /, et 1 sont les intégrales écrites ci-dessous. Posons 


1 Lu: 
FE ME | 
| ; : (5.131) 
CRE HE 
Alors | 
. : 
H= y Zexp {(v+ Tu). (5.132) 


Pour obtenir cette expression on a appliqué la formule (5.128). 
La formule (5.120) conduit ensuite à 


F5 À (Ars —Êet )exp{— Lei-+ Mass -+ Nut} des = 
A /nAr, A  LB,1 Mu, \2 M2: 
Vlr (—t+ ee) Jexp {(N+ ut 
(5.133) 
En portant (5.132) et (5.133) dans (5.130) on obtient après des 
transformations évidentes 
Es = D,[l + e* (us —1)*], (5.134) 
de plus il se trouve que 


M2 
dar: 


5 y/ Eexp {—c 
4 
2 
LB, _; 5 — 24, 
2(L+ A5) ? Bs-1 


Ici 


D,=(1+ 


| 


(5.135) 
g? 


Les expressions D, et &? ne dépendent pas de u.,. C’est pourquoi 
le minimum de &, par rapport à w, s'obtient si l’on annule l'expres- 
sion entre parenthèses de (5.134) 


Qu, — 1 = 0. (5.136) 
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On en tire la commande optimale uf sous la forme 


a (5.137) 


Le sens de cette formule est qu'elle donne l'estimation de la 
valeur À. La commande w, doit reproduire de la meilleure façon la 
valeur À; la valeur x, répondra alors le mieux à la grandeur x = À. 

Comme on le voit de l’expression (5.137), lorsque les valeurs de s 


2 : : 
et de (2 sont petites (par exemple, dans le cas d’une variance 


of importante du bruit), l'estimation est basée sur la valeur moyenne 

a priori À, Toutefois, lorsque s est suffisamment grand, la valeur Ào 

ne joue plus un rôle important du fait que pendant le temps s s'accu- 
8s— 1 

mule la somme > y* et en pratique sa valeur dépasse nettement Ao. 


Dans ce cas la formule (5.137) donne 


s—{ 
DE 
uŸæ Loue (5. 138) 


c'est-à-dire l’estimation de la grandeur À se ramène à l'obtention de 
la moyenne arithmétique des valeurs y* (i — 0, 1, ..., s — 1), 
mesurées à l’entrée de l’organe 
de commande. 

D'une manière analogue 
on peut construire une théorie 
de compensation optimale. 
Examinons, par exemple, Île 
système dont le schéma fonc- 
tionnel est représenté sur la 
figure 0.17. 

Supposons, pour simplifier 
l'exposé, que le bruit aléa- 
toire n'existe que dans le circuit E de mesure de la perturbation z.. 
Supposons encore que x est donné d'avance. Soit le système B 
sans mémoire décrit par l’équation 


zx. = F (Zss Us), 


où, comme auparavant, 
Zs — 2s (s, u), 
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et la densité de probabilité a priori P (u) du vecteur u est donnée. 
La densité de probabilité P (e,) du bruit e, dans la chaîne £ de mesu- 
re de la perturbation z, est également donnée. Supposons que le 
bruit e, est une suite de variables indépendantes, suivant une même 
loi de répartition P (e;). 

Introduisons les vecteurs temporels 


- 
2h — {gr Zi: +225 2h). 
+ 

Ur — (Wo, Wi, -.., Wkh), 
" 

LR) 218 th) 


Le problème consiste à déterminer les stratégies optimales 


l',(u,|zx5, w,1) de l'organe de commande À (s = 0, 1, ..., n). 
Les expressions de la fonction de pertes W et du risque À restent 
les mêmes que dans la théorie exposée plus haut dans ce paragraphe. 

Déduisons d’abord la formule du risque conditionnel élémen- 


taire r,, le vecteur z, étant fixé: 


r=M{W;|z} = | Wils, 2%, F (2 ue)] Ps(uslr*, 231) dO. (5.139) 


SU.) 


Dans cette formule x, st remplacé dans l'expression de W, 
par son expression. C’est pourquoi dans Î’expression de W, 
l’unique grandeur aléatoire est u, et l'espérance mathématique 
M {W,} s'obtient en prenant la moyenne par rapport à w,. Soit 


+ — 
P,lu,lzxi, 2,4) une densité de probabilité conditionnelle de w, 
es —+ 
pour 3,1 et xé fixés. 


La fonction P (ul xt, 2.) est fournie par la formule qui se 
déduit d’une façon évidente du schéma fonctionnel représenté sur 
la figure 5.17 : 


Pe (us | Les 281) = | ls (us | Le, Ws_1) P (5-1 | Z5_1) de. (5.140) 
Qu, _) 

l', est ici la stratégie de l'organe de commande et P (, | 2.4) 

la densité de probabilité conditionnelle du vecteur de sortie de 


l’élément £, le vecteur z,_1 de la perturbation étant fixé. Puisque w, 
sont des variables indépendantes, on obtient 


S — 


— — 1 
P'(We41]281) = LP (wr10). (9.141) 


i— 
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En portant (5.141) dans (5.140) et (5.140) dans (5.139) on a 


Ti — Î Wis{s, x, Ffz(s, u), us]} l's (us| 2, Wa) X 


s— 1 
x IT { P [wi | zi (i, Hp} dQ. (5.142) 
i=0 
Les vecteurs 2, varient suivant l'expérience. Si l'on connaît la 


densité de probabilité P (u), on peut obtenir le risque élémentaire 
total À, d’après la formule 


Re= | rs(h) Ph) d@ 
£(1) 
En remplaçant ici r., par l'expression (5.142), il vient: 
Rio À Wie a, Flz(s, h}, ul} Te(us|2, we) X 
QU, D ,_4e H) 
s— | 
x {II P [wi | 2: (à, p} P(G)d@. (5.143) 
j—0 


Le risque À, ne dépendant que de la stratégie l', associée à l’ins- 
tant considéré & — 5, la stratégie optimale LT est celle qui minimise 
le risque élémentaire R,. Posons 


(us, 2, wa) | Wits, at, Fas(s, p), ul} x 


Q(h) 
x {II P [wi | z: (6, p)} P(u)dQ. (5.144) 
On a … 
R,— À Le (us (Et, We) Me (us, 2%, We) dQ = 


RCE, _ 4e Us) 
_ | IL (034) d@, (5.145) 
QD _ 1) 


où 


I (1) = | D(usl at, wine us, 25, w61) dQ. (5.146) 


Su.) 


$ 3] THÉORIE DES DÉCISIONS STATISTIQUES 267 


Si l’on choisit T, telle qu'elle minimise la grandeur J (w,_:) 
pour tout 1,4, la valeur de À, sera alors également minimale. Cette 
sélection s'effectue de la même façon que dans la théorie exposée 


dans ce qui précède. 
Soit 


nu*, at, We) = min ns(us, 2Ÿ, Wei). (5.147) 
(u) 


Cherchons la valeur u5 qui minimise n.. [! est évident que u$ est 
x + 
en général fonction de zx et de w,1: 
A ES 
us = Us (27, Ws1). (5.148) 


Or, c’est précisément l'expression de la commande optimale qui 
dépend de la valeur courante x, et de toute la « préhistoire » des 


Fig. 5.18. 


grandeurs d'entrée w, (i = 0, 1, ..., s — 1), enregistrées par 
l'organe de commande À aux instants # — 0, 1, ...,s—1 
La stratégie optimale [l'£ est pure: 


5 — Ô (Us —u$), 


où u* est définie par la condition (5.147). La démonstration de la 
validité de cette expression est la même que dans la théorie exposée 
plus haut. 

Considérons un exemple très simple du schéma donné par la 
figure 9.18. Soit z, — Lu, tandis que les éléments £ et B sont décrits 
par les équations 


Ws —'es + Ts = UT Us. 


Soient ensuite les variables aléatoires normales e, et a caractéri- 
sées par les densités de probabilité 


cs 1 ___{t— ho}? 1 
PQ ep |), 
: 


1 
P (es) = —— ——— |. 
(es) Ce V2r . 202 J 
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Adoptons la fonction de pertes élémentaire sous la forme 


W, — (x — Xs)° — (ts — u—us)?. (9. 149) 

Etant donné que us: il vient : 

P=(ui|2) = exp {_£ —_ CL). (5.150) 
Cherchons d'après la S par rs de ";: 

. 
co (w;—u)? 
_ + 2 À (u— do)? 

Ms = € (TS —U— Us) EXP 2 20 dy, 


— 00 


(5.151) 


où a est une constante. Transformons l'expression dans l’accolade 
sous le signe somme en effectuant le remplacement à — u + u, — 
— LS = M —Ys, OÙ Ye = LS — Us. 

Après les transformations, l'expression (5.151) devient 


ns=aexp{— A} | oexp{—Ci—Bia)du, (5.152) 


Du 
s—1 
G2 ÿ w? + Go) —Ys (202 ÿ wi + 209) + (50%, + 0°) ya 
A, == ee 
| 20467, 
PR | (5.153) 
B, UE a 2020 ; | 
00! 
so}, + 0° + 
Ce ES + —. 
20904, 


L'intégrale (5.152) est définie par la formule (5.120). En défi- 
nitive on à 


b A 5.154 
Ns — eXP { s + re} | ele (3. ) 
où b est la constante comportant également certains facteurs 
dépendant de s. En posant 
s—i 
Ou > wi + 0élo 
B en i=0 
EE 


$.3] THÉORIE DES DÉCISIONS STATISTIQUES 269 


et en comparant les deux dernières formules dans (5.153) on obtient 
B: us 2ysC 5 NS Ps. (5.155) 


En considérant l’exposant dans (5.154), on remarque qu'il ne 
contient pas y. et, par suite, ne dépend pas de u,. En effet, (5.155) 
entraîne 


B, (2y Cs—$ e Ps 
BG BX ge, pt. (5456) 


Comparons l'expression (5.156) avec la formule de À, dans 
(5.153). Dans ces expressions les termes qui comportent yi sont 
identiques. Il en est de même des termes qui comportent y,. Par con- 
séquent, ces termes disparaissent de l’exposant et la différence 
{— A,+ B5/4C,} ne dépend pas de y, et ni donc de u,. C’est pourquoi 
minimiser n, par rapport à uw, revient à minimiser le facteur 
[1 + B?/2C.i), où B, dépend de u,. Ce facteur est minimal quand 
B, — 0. D'après l'expression (5.155), cette condition est vérifiée 
par la valeur 

=. (5.157) 

En remplaçant y, et B, par leurs valeurs, on obtient la loi de 

commande optimale 


Uÿ = a — IS, (5.158) 


Le deuxième terme de cette formule est une estimation de la 
grandeur u. En effet, la figure 5.17 montre que 


u = y (5.159) 


serait la valeur idéale du fait que c’est précisément sous cette condi- 
tion que x, est égal à x$ et la fonction de pertes élémentaire W, 
s’annule. En comparant (5.159) et (5.158) on voit aisément que le 
deuxième. terme de (5.158) donne justement l’estimation de pu la 
plus avantageuse du point de vue du critère d’optimalité appliqué. 


D'après (5.158), pour des s petits et des rapports 4 faibles, par 
e 
exemple, dans le cas d’une grande variance du bruit e,, le rôle prin- 
cipal dans l’estimation de u revient à la valeur moyenne a priori Lo. 
s—1 


Mais lorsque les s sont suffisamment grands, lorsque la somme dw, 
i=0 
accumulée devient importante, la formule (5.158) peut s’écrire sous 
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une forme approchée 
s—1 
2: wi 
uÿ LE — = — (5.160) 
et l'estimation de u se ramène à une moyenne arithmétique des w,. 
Au $ 1 de ce chapitre nous avons montré qu'il est possible en 
principe de remplacer la mesure directe de la perturbation z, par une 
mesure indirecte de l’entrée et de la sortie de l’objet B. Considérons, 
par exemple, le schéma d’un système à réaction représenté sur la 
figure 5.19. Ce schéma ne prévoit pas de mesure directe de la pertur- 
bation z, — u, mais la chaîne de réaction est munie d'un canal # 
dans lequel au signal x, s'ajoute un bruit représentant une suite de 
variables aléatoires normales 
indépendantes. 
Soient les équations des élé- 
ments Bet H 


Te = Us À 2e = Us + LL; 
2h (0400 


La grandeur de sortie y, du 
canal À est appliquée à l’organe 
de commande À. (5.161) entraîne 

Ys — Us — HU + hs; 
la différence (y, — u,) fournie 
par l'organe de commande est en 
quelque sorte le résultat de mesure de la grandeur z, = du avec une 
erreur h.,. Ainsi, les schémas fonctionnels représentés sur les figu- 


D! 


res 5.17 et 5.18 sont parfaitement équivalents, à condition que 
Es = Re 


En résumé, le schéma de la figure 5.18 se ramène à celui d'un 
système en boucle ouverte et, par conséquent, la théorie exposée 
ci-dessus, construite pour le système de la figure 5.17, convient 
très bien à l’étude du schéma de la figure 5.19. Pour abréger l'exposé 
nous appellerons réductibles des systèmes en boucle fermée qui 
peuvent être ramenés aux systèmes en boucle ouverte. 

D'une manière analogue le système à réaction donné à titre 
d'exemple dans [5.25] peut être ramené à un système en boucle 
ouverte. 


CHAPITRE VI 


SYSTÈMES OPTIMAUX À ACCUMULATION 


ACTIVE DE L'INFORMATION 


$ 1. Formulation d’un problème simple relatif 
à un système optimal de commande duale 


La figure 6.1 représente le schéma fonctionnel d'un système de 


commande automatique en boucle fermée. La consigne x* est amenée 
à l’entrée de l’organe de commande À par la chaîne 7% dans laquelle 


elle est entachée d’un bruit k*. C’est pourquoi l’action y* appliquée 


Fig. 6.1. 


directement à l’entrée À n’est pas égale à la valeur réelle de Ia con- 


—_— 


signe z*. [Il en est de même pour le signal + qui renseigne sur l’état 
du système gouverné B et qui est entaché dans la chaîne À du 


bruit k. L'élément Æ fait partie de la chaîne de réaction ; sa grandeur 
de sortie ÿ est amenée à l’entrée de l'organe de commande À. Ensuite 
la commande ä passe à l'entrée du système B par la chaîne G où 


elle est entachée d’un bruit g. C'est pourquoi l’action v introduite 
dans le système B n’est pas égale à à. Le trait interrompu matérialise 
la boucle de compensation qui peut être adjointe au système. 
La valeur de Ia perturbation z qui agit sur le système B est mesurée 
pour être transmise à l'organe de commande À par le canal Æ où 
elle est entachée d’un bruit e. Il en résulte que l’action w fournie 
à l'entrée de l'organe À n'est plus égale à la grandeur z. 

Dans le schéma en boucle fermée de la figure 6.1 sont possibles 
des processus qui n’ont pas d’analogue dans les systèmes en boucle 
ouverte étudiés au chapitre précédent. Un schéma en boucle ouverte 
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(fig. 5.12 ou 5.16, par exemple) ne permet qu'une observation passive 
des actions x* ou z. Or, dans le système en boucle fermée de la figu- 


re 6.1 l’étude de la perturbation .z peut être active. Pour mieux 
explorer le système B et obtenir une information plus complète 


sur la perturbation z ou plutôt sur les variations aléatoires des 
caractéristiques du système, ce dernier peut être sondé par des tests 
réalisés dans le but de l’étudier. 

Pourtant les actions de commande sont nécessaires non seulement 
pour l'étude du système, mais encore pour le ramener àäu régime 
requis. C'est pourquoi dans le schéma de la figure 6.1 les commandes 
doivent avoir un caractère dual, leur but devant être l'étude mais 
aussi [a commande. 

Le système dans lequel les actions de commande ont le caractère 
dual s'appelle système de commande duale [6.1]. Ce chapitre traite 
de la théorie de tels systèmes. 

Une commande duale est avantageuse et même indispensable 


lorsque l'opérateur F du système B et la perturbation z ont une 
allure complexe rendant ainsi complexes et variables les caractéris- 
tiques du système. Les exemples des systèmes de commande duale 
sont fournis par les systèmes de recherche automatique et, notam- 

ment, les systèmes d'optimisation automatique (3.25, 6.2-6.61. 
Dans les systèmes usuels de ce type la partie «'exploratrice » de 
l'action peut facilement être séparée de sa partie de commande soit 
par suite de la différence de leurs gammes de fréquences, soit par 
suite de leur succession dans le temps. Pourtant, dans le cas général, 
cette distinction n’est pas de rigueur; une même action peut pro- 
duire deux effets différents dont l’un prend en charge l'étude et 
l’autre, la conduite. 

Dans les systèmes à commande duale les deux aspects décrits 
d'une action de commande donnent lieu à une contradiction. En effet, 
une commande ne peut être efficace que si son action est transmise 
au système en temps opportun. Mais une commande ne peut être 
efficace que lorsqu'on connaît avec une précision suffisante Les pro- 
priétés du système. Or, l'étude d’un système demande du temps. 
Un organe de commande « hatif » produira des actions injustifiées, 
non étayées par l'information fournie par l’étude de l’objet; un 
système trop «prudent » temporisera en accumulant l’informa- 
tion et ne pourra pas guider l’objet en temps opportun vers le régime 
requis. Dans les deux cas le processus de commande peut ne pas 
être le meilleur et même inefficace. 

Une information sur le système, bien qu’incomplète, est fournie 
par les répartitions probabilistes des caractéristiques. À mesure que 
se poursuit l'étude du système, ces répartitions définissent toujours 
mieux ses propriétés. C’est bien cette variation progressive des 
caractéristiques probabilistes a. posteriori, qui s’approchent de plus 
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en plus des caractéristiques réelles qui permet d'estimer la vitesse 
d'étude du système. Le trait particulier des systèmes de commande 
duale est la dépendance de cette vitesse de la stratégie de l'organe 
de commande. 


Enonçons maintenant le problème de construction d’un organe 
de commande optimal. A cette fin empruntons quelques concepts 


# 5 slds-p hrs) |” | 25 
Lé | : — À U 7 Ts 
A | H | Us , S$ = 


P(Y\ES ) 
Fig. 6.2. 


à la théorie des décisions statistiques. Formulons d’abord le pro- 
blème de type particulier en le généralisant ensuite dans les para- 
graphes qui suivent. 

Considérons le schéma représenté sur Îa figure 6.2 soumis aux 
conditions suivantes : | 

1) Le systeme étudié est un systeme continu à états discrets. 
Toutes les grandeurs qui figurent dans ce schéma sont envisagées 
à des instants discrets & = 0, 14, . .., n, où n est fixé. La valeur de 
ces grandeurs à l'instant { — s est affectée de l'indice s (par exemple 
T$, Ter Yss CLC.). 

2) On étudie le problème bayésien qui compte parmi ses données 
les densités de probabilité a priori. Soient h*, h,, g, des suites des 
variables aléatoires indépendantes de densités de probabilité inva- 
riables P (h*), P (h.), P (g) respectivement. 

Ensuite, soit 


: z, = z(s, Li), (6.1) 
où u est le vecteur aléatoire 
U = (lys + .., Um). (6.2) 


Nous considérons que la densité de probabilité a priori P (u) 


du vecteur u est imposée. Posons d’une manière analogue que la 
* est de la forme 


consigne ZT: : 
Lt (s;»); (6.3) 


où à est le vecteur aléatoire 


À = (see Mg) (6.4) 


de densité de probabilité a priori P (à) imposée. Admettons que 
toutes les actions extérieures 2,, x#, h*, h, et g. qui agissent sur le 
schéma sont statistiquement indépendantes. | 


18—0966 
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3) Considérons que le système B est sans mémoire *). L’opéra- 
teur 
qui caractérise ce système associe les valeurs x,, 2., v, se produisant 
au même instant. Posons que la fonction F' est finie, univoque et 


dérivable mais pas forcément biunivoque. 

4) Considérons que les modes de combinaison du signal et du 
bruit dans les blocs Æ*, H et G sont connus et invariables et les 
blocs eux-mêmes sont sans mémoire. l'ar consequent, 


Ve = Vs (Ua, Ls), YÈ = Ur (RS, 25), Ya = Ys(hes Li). (6.6) 


Au lieu d'imposer ces relations et les caractéristiques probabi- 
listes des bruits hf, k., £,, on peut se donner directement les densités 
de probabilité conditionnelles P (v,[|u,), P (yé | xs) et P (y.[ x.) 


(fig. 6.2). 
9) Introduisons la fonction de pertes élémentaire 
Wa = Wi(s, xs, x). (6.7) 
Soit la fonction de pertes totale W qui s'écrit 
n 
W= D W,(s, de, ti). (6.8) 
s—=0 


Disons qu’un système est optimal s’il minimise le risque total R 
qui est l'espérance mathématique de la fonction de pertes 


R=M{W}= ZM{W}= LR. (6.9) 


Ici À, est le risque élémentaire. 

6) Considérons que dans le cas général l'organe de commande 
possède une mémoire. De plus, supposons pour la généralité que 
l'organe À réalise une stratégie aléatoire. Introduisons les vecteurs 


temporels 


Us — (Ua, Ut, Us): 2E = (x? 7 .., Le), | 

ee (or VU, s..; Us); ys = (ue UE Sn ÿ$), (6.10) 

Ls = (To: Lis se.) Ts); Ys = (Yo: Yis Ys) 
(O<sS<n). ) 


La valeur u, est une fonction aléatoire des grandeurs y; appli- 
quées à l'entrée de l’organe À aux instants précédents (i 5); 
u, est également une fonction des y? (j  s); enfin, u, peut dépendre 
aussi des valeurs w, enregistrées à la sortie de l’organe À dans le 


*) Les systèmes de ce type sont d'un grand intérêt pour la pratique: si à 
chaque test le paramètre d'entrée v, donne lieu à une valeur stationnaire x,, le 
système dynamique se compoiïte comme un système sans mémoire. 
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passé (v << s). Les valeurs antérieures w, peuvent être mémorisées 
par cet organe et être appliquées à l’entrée d’un calculateur qui 
définit la valeur w, courante. 

Le problème consiste à définir la stratégie aléatoire optimale de 
l'organe À, c’est-à-dire les densités de probabilité optimales 


Pa(us)= Tous us, Yen #7)  (0<s<n) (6.11) 


qui minimisent le risque total À. Etant donné que l', est la densité 
de probabilité, l, > 0 et la fonction, doivent vérifier la contrainte 


l',(us) dS — 1. (6.12) 
(us) 

Appelons ll; (i = 0, {, ..., n) stratégies élémentaires, et leur 
ensemble stratégie totale. 

La première étape de résolution consiste à déduire la formule du 
risque À. Cherchons d’abord l'expression pour le risque conditionnel 
élémentaire r.. Ce dernier peut être défini comme un terme de la 
formule du risque relatif au s-ième pas (c'est-à-dire à l'instant 
t — s), les valeurs d'entrée de l'organe À étani fixées. Ainsi, la formule 


— — S 
de r, se déduit en posant que les vecteurs temporels yf, u,_1, Ys-1 
sont donnés. Par conséquent, 


rs = M {W: | ÿé; Us-1, Us_1} — 
— À Wils, r*(s, À), JP (À, Ts|YS, Us-1, Us-1) AS. (6.13) 
QAR, xs) : 
Explicitons cette formule. & (4, x.) est ici le domaine qui com- 
prend l’ensemble des valeurs possibles du vecteur À et de la gran- 
deur x.. Ce domaine peut être représenté comme un espace de dimen- 


sion (g + 1) aux coordonnées cartésiennes À4, Ào, . .., Ag, Zs. 
La notation dO de l'expression (6.13) est adoptée pour un élément 


infiniment petit du domaine Q (à,x,). Les grandeurs À et x, de 
l'expression de W, étant aléatoires, la fonction W, de la formu- 
le (6.13) de l'espérance mathématique doit être multipliée par la 


densité de probabilité conditionnelle conjointe de. À et de x,, 
c'est- rà- “dire par | la fonction P (à, x, | VE, Us Ye) sous la condition 


Le yé, L 1: y. , sont données. Le produit obtenu est intégré sur 
Q (À, x); il en résulte l'expression du second membre de (6.13). 
Cherchons l'expression de la densité de probabilité RE ru 

Vire et x. D'après le théorème du produit des probabilités. 

cf, (2 si 


PA ENT Us- 13 ÿo- D 


— PÜRIYE, Us Ye Pl, U}, Us Ys- se. (6.14) 
18+ 
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Pourtant la densité de probabilité de À n’est liée qu'à y (cf. 
fig. 6.2) et ne varie pas si, en plus du vecteur fixé ué, on fixe les 


vecteurs U_ 1 et Va . En effet, la chaîne qui comporte le bloc Æ* de 
la figure 6.2 ne fait pas partie du schéma en boucle fermée et constitue 
un circuit à part. Les propriétés de cette chaîne permettent de définir 


la fonction P (À] y; qui ne dépend pas des valeurs u 1 et You 
Il vient donc 


P (I yT, Usa, y) = P (]yi)= Ps (D). (6.15) 
Nous avons employé ici la notation P,(À) pour la fonction 
P (à 1 y*). Cette expression est la densité de probabilité a posteriori 


de À calculée à l'instant { — s sur la base des valeurs observées yf, 
Yis or + YS- 

On peut également simplifier le deuxième facteur du second 
membre de l'égalité (6. 14). En effet, la densité de probabilité de x,, 
les entrées yé, Vas L, _ de l'organe À étant fixées, ne varie pas si 
on fixe encore À. Par St 


P(xs|A, y#, Us. 4 Vs =? (æ:1y}, Us 1: Ye 1). (6.16) 


En portant (6.14) dans (6.13), compte tenu de (6.15) et (6.16), 
on obtient 


rs = | Wls, z*(s, À), xl: P, (D x 
Q(X, xs) . 

X P(tsly, Us, Ys-1) dO. (6.17) 
La figure 6.2 montre qu'ayant fixé u et donc z,, : 1si que u,, 
la sortie x, du système est une grandeur aléatoire p:x suite de la 
présence d’une perturbation aléatoire g.. Désignons par P {x,| L, 
s, u,) la densité de probabilité conditionnelle de x,, avec u et u, 
fixés, considérée à l'instant # = s. Soit également P, (u) la densité 
de probabilité a posteriori du vecteur à l'instant ? — s. Cette 
fonction diffère de la densité a priori P (u) =, (u) du vecteur u, 
car l'information fournie à l'organe de commande À pendant le 
temps £ — 0,1, ..., s— { permet de préciser la valeur du vecteur u. 


La densité de probabilité P (x, | y*, u,1, y.) est donnée par 
la formule 


P(xslys, Us4, Ys-1) — 


= |. Plln s w):Ps(h)Te(u|yi ue, Van) 4. (6.18) 


@ (u, us) 
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Cette formule. se vérifie aisément du fait que pour obtenir 


P (x, D u, Le y, +) il faut prendre la moyenne de l'expression 


P (x,;|u,s,u,) par rapport aux deux variables indépendantes pu et u,. 
Elles sont indépendantes pour peu que les entrées de l'organe de 
commande soient fixées. Cette condition est équivalente dans un 
certain sens à l’ouverture de la chaîne en boucle fermée du schéma 
représenté sur la figure 6.2 *). 

En portant (6.18) dans (6.17), on a 


r = À Wils, at (s, 2)al- Ps) P (tsl s, us) X 
QG, L, %&s, Us) 
X Ps(u)-ls(us | YS Us-y» Ys-a) 82. (6.19) 


Déterminons maintenant la densité de probabilité a posteriori 
P;: (À). Puisque 


PA w)=POPUIMN=PAIy)-P(y), (6.20) 
il vient 
A (y# | à) : \ 
PDSPGDerQ (6.21) 
P (y) 


Ici P (à) est la densité de probabilité a priori de 4, P ( ) la densité 
de probabilité a priori (inconditionnelle) de y* et P (y* | À) la densité 


de probabilité conditionnelle de y*, la valeur de À étant fixée. Cette 
dernière fonction (dont la forme est celle d’une fonction de vraisem- 
blance) peut s'obtenir si l’on connaît les propriétés du canal Æ* 
(fig. G.2). | 

Les valeurs hf étant indépendantes pour les différents à et l’élé- 
ment A étant sans inertie, on a ** 


PI Il P@tID= [ PUIE 7. (6.22) 


J1 est beaucoup plus difficile de trouver la densité de probabilité 
a posteriori P, (u). Cette grandeur peut être calculée par l’organe À 
qui mémorise les valeurs uw; et y; (i — 0, ..., s — 1). On étudie 
ainsi l'entrée et la sortie du système B. Les grandeurs v; d'entrée 
et x; de sortie du système sont mesurées avec erreurs par suite de la 
présence des perturbations g,; et h;. Toutefois, l'étude du système 


, . \“ A] 
*) La valeur x, n'intervient pas directement dans y,_1 à travers le système, 
—+ 
car ce dernier est sans mémoire. La liaison de x, et Ys n "est assurée que par la 


stratégie de l'organe de commande À qui mémorise e- Fe. 
**) Nous avons souligné ici- que P peut dépendre du numéro i du pas. 
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permet de préciser la densité de probabilité du vecteur des para- 


mètres p qui définit z,, perturbation subie. par le système B. 
La perturbation z, est en fait la caractéristique variable du système. 
La recherche de la meilleure méthode pour gouverner le système B 


est d'autant plus sûre que la connaïssance du vecteur u et par con- 
séquent de la caractéristique du système B est plus précise. C’est 
pourquoi il est très important de calculer la densité de probabilité 
a posteriori P,(u) qui recèle toute l'information sur le système 
emmagasinée par l'organe À 

Pour définir P;(u) servons-nous également de la formule du 
type bayésien. Considérons la densité de probabilité conjointe 


P (y, Us-t Ys- 1195) des vecteurs u, Us 1 et Ys- _; avec y fixé. Soit 
P (us- : Ys | ps y#) Ja densité de probabilité conditionnelle conjointe 
des vecteurs Us et er u et, bien sûr, VE étant fixés, et 
P(ulus…, ÿs- 1: DA] la densité de probabilité conditionnelle de u, 


n 
les vecteurs us . si et yS étant fixés. Cette dernière fonction est 
précisément la densité de probabilité a posteriori recherchée du 


vecteur L. | 
D'après le théorème du produit des probabilités 


PU, Ust, Usa |yr)= P (uses, Yeah, Yi) P (u)= 
— P(ulusa You V5) P(us, ysulyt). (6.23) 


Dans cette formule la fonction P (u) — = Po (ui) est la densité de 
probabilité a priori (inconditionnelle) de u et P (u, M Ve) la 
densité de probabilité inconditionnelle conjointe des vecteurs Le 4 
et You. Comme u ne dépend pas de À ni de y dans l'expression de 
P (u) la dépendance de y* est absente. 

(6.23) entraîne 


D os + PP Wall D 
Ps (u)= P (ulus-1 Ys-1» ys) = — — —= 
P (Us-1, Ys—1 | Y#) 


P .p - | a … ne 
GT) 
Ÿ Plus ÿs-11 li y#) P (u) d@ 


Q (u) 


Ainsi, pour définir P, (u) il faut trouver l'expression de la fonc- 
tion de vraisemblance P (u,_1, y: [u, ys) dans un système en 
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boucle fermée représenté sur la figure 6.2. On voit aisément que la 
densité de probabilité d’un événement complexe qui consiste en 
l'apparition d'un couple de valeurs 4o, Yo Suivi de 4, y1, puis de us, 
y2, etc., la valeur u étant fixée, est un produit de plusieurs facteurs : 


de la densité de probabilité P {uo; Yol L, y$) du premier de ces 


ne + 
événements; de la densité de probabilité P (wi, y1| M, Uo, Yos Y1) 
du deuxième de ces événements sous la condition que le premier ait 


=. = — — 
eu lieu; de la densité de probabilité P (wo, y2lm, uw, ya, y5) du 
troisième de ces événements sous la condition que le premier et le 
deuxième aient eu lieu, etc.: 


+ ee — . | 
P(us-is Vault, ÿ5)= P (uo Vols yo) X 
X Puis y), Uo Yo 5) P (ue, Ya L Uy, Yi, Yo) 
+ Pusis ys- [L Us», Ys-2s Us). (6.25) 


Considérons !l’ i-ième facteur de cette expression (0 i<5s—1) 
et réalisons sa transformation : 


PQu, yilh Uia Via Wr) = 


= P(y;|u, Ujs Uiÿ-4, Ui-ts yi) P (lu, Ui-1, Ui-1, yi). (6.26) 
Le premier facteur du second membre de (6.26) est la densité 
de probabilité conditionnelle de y; à l'instant # — à sous la condi- 


tion que u et u, soient fixés. La figure 6. 2 montre qu ‘elle ne change 
pas si l’on fe également les vecteurs y}, u, _1 et y 15 par consé- 


quent, cette densité ne dépend _pas des vecteurs u, ne y} et Yi a 


On peut la désigner par P (y; |, à, u;), à à droite du trait vertical 
signifiant que cette fonction dépend aussi du numéro à du pas. 


Ensuite, la densité de probabilité conditionnelle P (u;|u, uw, Yi, 


y?) ne dépend pas de u pour peu que u. _1 et y; _, soient fixés. Cette 
fonction est une stratégie aléatoire l';, de l’organe de commantle À. 


C'est pourquoi on peut l'écrire *) comme T', (u;. . u, Ne y; a). 
Ainsi la formule (6.26) peut se mettre sous la forme 


P (u;, yil, Le, Yi y)=P(yl, l, U;) l', (6.27) 
où l'; est une notation abrégée de 
l'i(uilyi, Win, Yi). 


*) Elle ne dépend pas de y, si À assure Ja mémorisation des valeurs 
y ( Li) antérieures. C'est pourquoi au lieu de Yi on peut écrire Yi 
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En portant (6.27) dans (6.26) et (6.26) dans (6.25) on obtient 
l'expression de la fonction de vraisemblance sous la forme 


s—1 


_8s—i 
P (us, de IL, y#) )= [I] P{ylu, d, u)le [J l';, (6.28) 


dans laquelle on a introduit la notation 
To = Po (ui). (6.29) 


Cette densité de probabilité ne dépend pas des observations qui 
n’existaient pas encore à l'instant initial & — 0, elle n’est définie 
que par les données a priori. 

La substitution de (6.28) dans l'expression (6.24) conduit à la 
formule 


s— 1. L s—1Î 
: _  _ _… P-LIT PGet i, si]: [[ r'; 
Psu)= P (lus, Yours Ye — > ———>———— 2. (6.50) 
P (us-1s ys-1 1 4%) 


Portons notre attention sur la différence de principe entre cette 
dernière formule et l’expression (6.21). L’accumulation de l'informa- 
tion sur les caractéristiques du système se traduit par le fait que la 


densité de probabilité a priori P (u) est remplacée à chaque pas par 


des densités a posteriori P,(u) qui caractérisent le vecteur LL avec 
une précision de plus en plus meilleure. 


La formule (6.30) montre que la forme de la fonction P,(u) 
et donc la vitesse d’accumulation de l'information sur le système 
dépendent de toutes les stratégies antérieures l'; (i < s). Autrement 
dit, la vitesse de l’étude du système dépend de l’organisation des 
expériences qui consistent à appliquer à ce système les actions u; 
et à explorer les réponses y; du système à ces actions. 

Or, dans la formule (6.21) de P, (À) ainsi que dans les formules 
analogues du chapitre précédent la dépendance entre la vitesse 
d'accumulation de l'information et la stratégie l'; (i = 0, 1, 

.., $ — 1) est absente. Cela veut dire que l'accumulation ‘de 
l'information sur l’action x; dans la chaîne en boucle ouverte est 
passive, ou indépendante. 

La comparaison des formules (6.21) et (6.30) permet de rendre 
évidente la différence principale entre les commandes duale et non 
duale. Dans la commande duale la vitesse de l'étude du système 
est définie par le caractère des commandes, c’est-à-dire par la stra- 
tégie de l'organe de commande, alors que cette relation est inexistante 
dans le cas d’une commande non duale. 
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En portant les expressions (6.21) et (6.30) dans (6.19) on obtient 
la formule définitive du risque conditionnel élémentaire 


Ts — | Wals, 2è (s, à), Les] X 
RG, Lx. u,) 
8— 1 


- P(xlu, 8, us) X ee *]] T: de. 
P (y*) P (ys5-1: us-1 [y À) i—=0 
(6.31) 


Si l’on considère les valeurs de r, fournies par différentes expé- 
>  — ee 
riences, les vecteurs yé, u,_1 et y,.1, en général inconnus d'avance, 


ni — — 

peuvent prendre différentes valeurs. Soit P (y*, u,_1, y,-1) la densité 
de probabilité conjointe de ces vecteurs. Le risque élémentaire 
moyen À,, qui représente la moyenne du risque conditionnel élé- 
mentaire 7, pour un très grand nombre d'expériences, est alors 
défini par la formule 


R:— | r P (UE, Us Vs) di. (6.32) 
QUE. Vo Ve_D 
Tenons compte maintenant du fait que 
P(yS, Us, year) = P (us, ys-ilys) P (us). (6.33) 


En portant (6.31) et (6.33) dans (6.22) et compte tenu de (6.22) on 
obtient la formule principale qui exprime R, sous la forme suivante: 


hy= | W: {s, œS (s, à), Ts] X 


(A, u, Ts À. UV) 
x POIIE PUtli D]P(lu,s, 1) x 


i—0 


s— 1 8 ; 
x PT [T2 Gb, à u)]| IT T:)d0. (6.32 
i=0 


i—0 


Bien que dans le problème considéré le système PB soit sans 
mémoire, le risque À, associé à l'instant £ — s dépend de la stra- 
tégie totale, c'est-à-dire de l’ensemble des stratégies élémentaires 
qui sont les fonctions ['; aux instants. { — 0, 14, ...,s. La cause 
physique de ce phénomène, inexistant dans un système en boucle 
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ouverte, est précisément [a dualité de la commande. [1 s'ensuit que 
la commande, pour { — k (k << n), doit avoir pour tâche non.seule- 
ment la minimisation de la valeur R,, risque élémentaire qui 
correspond à cet instant, mais aussi une meilleure étude du système 
pour contribuer à la diminution des valeurs des risques R; (i => b) 
aux instants ultérieurs. Considérons S,, partie du risque total R 
dépendant de la stratégie T,: 


n ñn 
Sx= D R;=Rrt 2: Ri. (6.35) 
| A 


izk + 


Par rapport à la stratégie élémentaire l',} le premier terme du 
second membre de (6.35) peut s'appeler risque d'action et le deuxième 
risque d'étude. Une stratégie primitive qui choisit l’action ux (ou 
sa densité de probabilité l',) de façon à ne minimiser que le risque 
d'action n'est pas optimale. Par ailleurs, l'ignorance du risque 
d'action et la minimisation du seul risque d'étude, c'est-à-dire la 
sélection de } (ou de l',;) uniquement dans le but de mieux étudier 
le système pour utiliser l'information obtenue dans les actions 
ultérieures, ne correspond pas non plus à un comportement optimal. 
Dans le cas d’une commande duale, la stratégie est optimale si 
elle minimise la somme S$S, des risques d’action et d'étude. 


$ 2. Résolution du problème et exemples 
simples 


Pour définir la stratégie optimale d’une commande duale saisons 
appel à la programmation dynamique (6.1, 6.71]. 
Introduisons les fonctions auxiliaires (4 —0,1,...,n) 


— — 7e 
Ah —= Oh (ur, Yh-1: yk) — 


_ À Wa Lk, aë (k, Dal: P (À) x 


QG, U, x) 


R 
X IT PGtlé 3) |eP (ax ff, ke, un) X 
i=0 


RkR—1 
x P(p)-[ [| P(yilu- i, ui) | ad (6.36) 


i—0 


et. 


k 
By — Il T's. (6.37) 
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Quel est d’abord le risque À, au dernier instant # — n, en con- 
sidérant que les stratégies l';, ..., l,_1 sont fixées d’une façon 
ou d’une autre? Compte tenu de (6.37) et (6.36), (6.34) permet de 
tirer 


En = Un (Un, Un y+) Pn-1ln ds — 


QU» Un» Un) 


> —+ ns : 
= À Bt (uns Uno, V5) 4, 6.38) 
+ —> + 
QU 4 Wn-ir Ÿ ELLE 
où 
+ _ eS ee ne 
Kn (Un-1, Un-1;: yn) = | Qn (Un, Un-1; Un-1» Un) X 


QU) 


X Ta (un [Un-u ns Y3) 4Q. (6.39) 


Le théorème de la moyenne et (6.12) nous autorisent à écrire 


Kn — (@n)}moy À Th dû — (Gn)moy > (&n)min- (6.40) 
Sun) 


Il faut _choisir F telle qu’elle minimise R,. Cela s'obtient si 


pour des u, . Ya y# quelconques, [, est choisie telle qu'elle 
minimise la fonction #n. Dans ce but, de même que dans le chapitre 
précédent, cherchons u, = ur minimisant la fonction @&,. Soit 
An — Yn ei 


Ps . = es ne 
Yn — Œn (ux, Un-1, UYn-1s Yn) —= 


| = —+ se 
— min Œn(ün, Un-1, Yn-1s Yn)- (6.41) 
unEQCu,) 
Lé Q Q A > + 
La grandeur u? est évidemment une fonction de Un-4, Yn-1, Yn! 


Un = Un (Un-1, Yn-1» Un) (6.42) 
La stratégie optimale là est donnée alors par l'expression 
1 = 6 (ur —u?), (6.43) 


où Ô est) l'impulsion unité. Cela signifie que 1% est une stratégie 
pure ; de plus, d’après (6.42), la valeur optimale de u, est égale 
à un. L'expression je 42) montre que u? est une fonction des valeurs 
Las Us (5 — 0; À, ., n — 1) fournies Au à l'organe de 
commande À, ainsi que des valeurs y} ( = 0, 1, ., n). 
On montre sans peine que la stratégie exprimée par les formu- 
les (6.41)-(6.43) est optimale. De même que dans le chapitre V, 
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portons l'expression (6.43) dans la relation (6.39). Il vient 
Kn — (@n)y =ux = (@n)min- (6.44) 


Mais d’après (6.40) cette valeur est minimale possible pour %,. 
Par conséquent [l% est une stratégie optimale. 

Pour trouver les stratégies optimales F* pour i < n il faut 
rétrograder de l'instant terminal £ — n vers le départ. Pour déter- 
miner 1%_1, par exemple, considérons les deux derniers termes qui 
font partie du risque total À, c'est-à-dire la grandeur 


Sn = Rnit Rn= | Gin1Bn-1 dO + 
QU ne Una V 4) 
+ | fr d@- 


+ — x 
QU, Vh_4 Y n) 


— À Pn-2#n 1 (Un_» Ya, Yn- 1) de, (6.45) 


na — + p 


* 


ou 
Kn-1 (Un, Yn-2» Yn—1) +. À {Ta itns SE 
Su _1) 
Hs À oi d@ (nu yé} d@ (un) = 
Q(Yn_1v Vn) 
- | T, {ans + | a AR (y, pt) } dQ (un). (6.46) 
(un _1) (Vh 10 Un) 


La fonction [', n’est pas explicitée ici mais on sait de ce qui 
précède que pour ce faire il faut remplacer w, par l'expression (6.42). 
Considérons qu'une telle substitution est déjà effectuée; l, ne 
figure plus alors dans nos formules, tandis que u* s’avère une fonc- 


tion connue de uw, 1, Yn-1s Yn. Examinons la fonction 
Yn-1 — Yn-1 (Un-15 UYUn-2. Yn1) né 
+ + : —+ | 
=anit À VC, Unes Un VA) dQ. (6.47) 
(y 4 2h) 


_Cherchons la valeur u*_;i qui minimise cette fonction. IL est 
clair que cette valeur dépend de toutes les autres variables qui 
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figurent dans l'expression de , 1: 


Uni = Uni (Un_2, YUn-2 Yn-1)- :(6.48) 
La stratégie optimale s'écrit alors 
F7 — Ô(Un-1 —un-1)}, (6.49) 


ce qui signifie que 1% _: est également une stratégie pure. La validité 
de cette formule peut être prouvée tout comme cela a été fait plus 
haut pour l$. En poursuivant cette procédure et en passant à la 
définition de l',_2, ..., T5 on aboutit à la règle suivante d'obten- 
tion de la stratégie optimale. Soit y, = @,, 


Vn-k = En-k + 
+ | Ÿn-h4#H1 (Un-h4+1, Un-k; Un-h) Yn-h+1) ds à(6.50) 


QU Rs Un—h4+1) 


et u*_, est la valeur de u, ; qui minimise la fonction y, 4, c'est-à- 
dire 
Van MIN Yn-h = Yn-r (Un-s). (6.01) 
Un_REQUU, _p) 


Il est clair que 
th = U$_x (VEk, Unckus Un-hu)e (6.52) 
La stratégie optimale T%_; est donnée par l'expression 
Pis 0 (Us 0). (6.53) 


c’est-à-dire la stratégie optimale est une stratégie pure qui consiste 
à sélectionner w,,_, — ur _, d'après la formule (6.52). Comme on voit 
de cette formule, à l'instant & — n — k Ia commande optimale 
Un _R dépend. de toute la « préhistoire » des grandeurs d'entrée appli- 
quées à À, c’est-à-dire de toutes les valeurs Lis Yi (0 le 2 
, nn — k — 1), ainsi que des valeurs yÿ (j Sn — k). 
On montre facilement que dans l'expression de &, il faut poser 


CEE | 
Î Pilu, à, w)—1. (6.54) 
On à alors 
= Ug (Yo): (6.55) 
c'est-à-dire l'action de co dede initiale dépend de la consigne 
foùrnie à l'entrée de: l'organe de commande À et, de plus, bien 


entendu, des données a priori. 
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Il convient de noter que dans l'algorithme optimal (6.52) dont 
il faut munir l'organe de commande À, la valeur u_, dépend des 
erandeurs 4;, y;, y} appliquées à l'entrée de À dans le passé, ainsi 
que de la valeur courante y#_,, mais non pas des valeurs futures de 
ces variables. C’est pourquoi un organe de commande optimal 
est physiquement réalisable. 

Si les valeurs 2* (i — 0, 1, ..., nr) sont connues d'avance, la 
formule de la commande optimale se simplifie. C'est le cas des 
systèmes de stabilisation automatique ou des systèmes à programme. 
L'élément ÆH* de la figure 6.2 devient alors superflu et la loi de 
commande peut être munie d'avance de valeurs zŸ = y* sous la 
forme de paramètres connus. Les formules pour les problèmes de 
ce type peuvent s’obtenir comme un cas particulier des formules 
déduites précédemment. Si l’on pose 


P(A)—8(A—), P(yf fi, À)=6 Jyt—zf (I, (6.56) 


où À est le vecteur fixé connu d'avance. Comme x peut également 
être considéré comme connu, la formule (6.34) prend la forme sui- 
vante 


R,= ( Wis, a*, ce) P(xsll, 5, us): P (h) x 


s—i 8 
XII Pile üu)l-[TIr:]d. (6.57) 
i—0 i=0 


Si l’on pose maintenant, considérant x} comme paramètre et ne 
l’explicitant pas, que 
; 


an == an (un, Ve) = | Walk, st, m)-P (xl, k, 2) X 
Q(p, xp) 
R—1 L 
XP): [[ PGluiu)dR, (6.58) 
i—0 


on aboutit à l'expression analogue à (6.38) : 


+ 


Ri = | Gun (Ur, Yn-1) Br dS2. (6.59) 
up, x _0) 


En appliquant à ce cas les mêmes raisonnements que ceux utilisés 
dans ce qui précède, on tombe sur la procédure suivante de la recherche 
d'une stratégie optimale; soit y, — &, et 


YVn-h — Œn-h + | Yn-hk+41 (Un-h+1, Un-h; Un-h) dgà. (6.60) 
(Un _R) 
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Soit, ensuite, un_x la valeur de u:.» qui minimise la fonction 
Yrn-r d'après l'expression (6.51). Il est évident que 


ut = UË_g (Un-hp Un-hi). (6.61) 


Le paramètre 23 n’est pas présent ici explicitement. La stra- 
tégie optimale 1%, est donnée alors par l'expression (6.53) où, 
toutefois, u*_, se calcule d’après les relations (6.60) et (6.61). 

Examinons d'abord certains exemples relativement simples 
donnés par [6.1, 6.7]. La figure 6.3 représente le schéma fonctionnel 
d'un système très simple. La grandeur de sortie x, de l’objet com- 
mandé B est appliquée à une entrée de l'organe de commande À. 


Ts 


Fig. 6.3. 


La consigne x$, supposée connue, est fournie à une autre entrée 
de cet organe. La grandeur de sortie u, de l’organe À est une comman- 
de appliquée à l'entrée de l’objet B par la chaîne d'action G où 
le signal de commande se mélange au bruit g,. Dans cet exemple la 
perturbation z; se ramène à une grandeur aléatoire u. Le système B 
a un opérateur du type 


Ts = Vs TU, (6.62) 


Us = Us + Le (6.63) 


Cette dernière expression est une loi de composition additive du 
bruit et du signal dans la chaîne d'action G. La fonction de pertes 
élémentaire est définie par l'expression 


W, = (xs — xt}? (6.64) 


Soient P,(u) et P (g,) = q (g.) les distributions normales de 
moyennes nulles et de variances 04, et 0% respectivement : 


Pb) = 7 exp {he } . 
P(gs)=q Au =. 


4 


ou 


(6.65) 


Les valeurs de ces variables ne sont restreintes par aucune con- 
trainte. 
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Il faut réaliser la synthèse d’un organe de commande optimal À 
minimisant le risque R, espérance mathématique de la fonction de 
nr 


pertes W = ÿ W.. 
8—0 
Selon la théorie générale il faut trouver d’abord la fonction «4 


définie par (6.58). À cette fin on doit connaître au préalable les 


expressions P (x, |u, k, u:) et P (y:lu, i, u;). Puisque dans le 
problème concerné y — x, u est une grandeur scalaire et la densité 
de probabilité ne dépend pas de à ou de k, on la désigne par 
P (œil; u:). 

(6.62) et (6.63) entraînent 


ti = (ui +) + gi. (6.66) 
Par conséquent, 
P'(tilu, u;) — q (x; — u; — u), (6.67) 


q étant la densité du bruit g, donnée par la dernière des expressions 
(6.65). En portant cette expression dans (6.58), on a 


k 
AR == WaPotu)-[] P{x;{[u, U;) d£è — 
Q (xp, H) i=0 


O0 00 


k 
== | | (cé — mm) Po(u) [I q(ri—ui—h) dx du. (6.68) 


Si l'on porte dans cette relation (6.65) on Dr 


_ L e pete (Ti —u;—U) 
Œh Mo y LE exp {-* : 20% ms X 
X | | (xt — xx)? exp ei feet } des | du. (6.69) 


Utilisons la formule (p > 0) 


00 


{2 exp {— pa + 292) ds — EYE (1+2# exp{ (6.70) 


— 00 


Calculons l'intégrale 7; entre crochets de (6.69) 


În — exp { 5) f z* exp {— | ste(-ch)"<) dz, (6.71) 
avec 


Lh— Th —=2, Æh—Ur—U= x. (6.72) 
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(6.70) permet d'obtenir à partir de (6.71) et (6.72) 
In = 0g V2n [0% + (2Ë — ur —u)?]. (6:73) 
On a alors en vertu de (6.69) 
_ L 2 [ pu? 
RFI | où | exp {— À ° 
k 6, (2x) 2 — co 
Ni un(e; 0) 
. Bi WU (ci ui) +u? 
2 20% ja [ exp { — . 
h—1 
_ > ET ANSE ME Y (e*— ur — y)" du | . (6.74) 
i=0 °e 


Pour calculer la première des intégrales entre crochets de l’expres- 
sion (6.74), on peut faire appel à la formule (p > 0) 


O0 F—= : 
—_ px? op où 7 
| exp{—pa* +qa} dx =J/ <exp {2}. (6.75) 
La deuxième intégrale entre crochets se définit en posant u + 
+ u, — x* = zet en appliquant la formule (6.70). Il ‘en résulte la 


forme définitive de la formule de &,. Pour l'obtenir introduisons les 
notations 


kh—1 
Up — Th = W, 2 (Zi —u;) = Zn-1, 
_ R—1 
En = 26% Fo . ’ D (ti —u;)* = 0x4, t_ (6.76) 
i=0 
6% 1 


CRE —, b CR. 22 ch /0 eo 9/09 À 
7 Va (m2 Ver 20404 (2x)? (2e2)9/2 


ce qui donne 


a = {an + ba + À (wres + m1) ‘he 


) 


..  Ûg-1 >k-1) 41e 
X exp { ee + 2}. (6.77) 
Dans cette formule v4, qui fait partie de l'expression de w,, n’est 
présente que dans le facteur placé devant l’exponentielle, maïs ni 
cette variable ni sa fonction ne figurent dans l’exposant. Cette 
circonstance rend beaucoup plus simple la minimisation de &œ; par 
rapport à Un. 


19—0966 
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Calculons maintenant l* en procédant pas à pas. En posant dans 
la formule (6.77) £ — n, minimisons la fonction y, = &, par rap- 
port à w.,. La condition du minimum coïncide avec l'annulation de 
l'expression entre parenthèses de (6.77): 


— 0. (6.78) 


0% 


En remplaçant les valeurs de w, et ZX, d’après (6.76) on en 
tire la commande optimale: 


OS ES 
Un — Zn PI (6.79) 


Ensuite, d’après (6.77) on définit 
n—1 DE 
Ya = On = (An + bn) EXP { —° Der } : (6.80) 


20ÿ  4OGEn 


On calcule enfin la fonction Yn-1 : 


O0 


Yn1 = An-1 + J 20 dtn-1 = {an + On-1 AE 


+2 1 [une 1En1 + me] } exp {2 LE ie -} + 


n-1— + 0n- 
+ Ÿ (an + b) exp (nat m4 


— CO 


+ Zn- ÉLE 1—Un-1)" æ} dtns. (6.81) 


Dans cette formule l'intégrale ne dépend pas de w, 1. En effet, 
Un 1 n'est présent dans @} que sous la forme de la différence 
(Zn 1 — Un). C’est pourquoi en remplaçant z,_, par une nouvelle 
variable T1 — Uni = Z, Üln_1 — dz, on obtient une intégrale 
dans laquelle ni l'expression sous le signe somme ni les limites 
d'intégration (—oc,c) ne dépendent de w, 41. 

Par conséquent, dans (6.81) seul «&,_, dépend de u, 4. Cela 
signifie que pour £ = n — 1 le risque d’action dépend, comme il 
fallait s’y attendre d'ailleurs, de la commande , _, alors que le 
risque d'étude est indépendant de u, 4, bien qu’il diffère du zéro. 
Les systèmes dans lesquels le processus de l'étude du système est 
le même quelle que soit la commande sont dits neutres [6.1]. 
Le système considéré est justement un système neutre. Le sens 
physique de ce phénomène dans l'exemple considéré est expliqué 
dans ce qui suit. 
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La minimisation de &, _, par rapport à w, _, donne la condition 
du minimum sous la forme de l’égalité à zéro de l'expression entre 
parenthèses de. (6.77) : 


Zn- 
Wn-1En1 + ms = 0 ; (6.82) 

20g 

on en tire 
n—2 
> (ti — u;) 

| :—Ù 

DR (6.83) 
20gEn-1 


Des raisonnements complètement analogues conduisent à Îa 
conclusion que y$ ne dépend pas non plus de w, mais dépend seule- 
ment de la différence x,.1 — u,.1. Aussi, en remplaçant z = x,_1 — 


— U,_1, on élimine dans l'intégrale * dxr..1 la dépendance de 
s—1 £ s —1 


u,_1. Par conséquent, quel que soit (s — 1) dans la formule de y,1, 
il n'y a que le premier terme &,_;, qui dépend de u,_,. À chaque pas 
le système est neutre. On en déduit que la formule de z, coïncide avec 
(6.79), et (6.83) pour un s quelconque donne: 
s— 1 
D (&i—ui) . 
nt (5 — 0, 1, ..., ni}. 6.84 
Us Ls - 2028, (s : 9 9 9 ñ) ( ) 
En remplaçant €, par sa valeur tirée def(6.76):on"aboutit à la 
loi de commande optimale suivante: | 


Ut (51, 2, ...,n). (6.85) 


Pour s — 0 on obtient uë = rt. | 

Le sens de la formule (6.85) est bien simple. Si la valeur de u était 
connue, il faudrait établir la grandeur u, — x* — u pour satisfaire 
à La condition idéale x; = z* (en l'absence du bruit g,). Le deuxième 
terme de (6.85) donne, par conséquent, l'estimation de u. S'il n'y 
avait pas de bruit (g, = 0), il serait facile de définir pour u, = v, 
la valeur de up: u — zx; — u;. Pourtant, la figure 6.4 montre que 


Ti — Up + vi) —u = + g. (6.86) 


Par conséquent, la différence x; — u; donne la valeur de u mesurée 
avec une erreur g;. Ainsi, l'estimation de u s'obtient à partir de 
plusiéurs mesures des différences x; — u; pour i — 0,1,...,s—1. 
Pour des s assez grands, le deuxième terme (6.85) devient la moyenne 


19* 
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arithmétique des x; — u; pour à — 0,1,...,s — 1, ce qui correspond 
à des idées intuitives. 

Attirons l'attention sur Ia ressemblance qui existe entre la 
formule (6.85) et l'expression (5.157) du chapitre précédent. Si l'on 
pose Lo — O0 (ce qui a été supposé dans le dernier problème), ces 
expressions deviennent identiques. Il en est ainsi parce que le sché- 
ma 6.3 est réductible. Il peut être ramené à celui de la figure 5.17. 


En effet, la formule (6.86) entraîne que mesurer x, et u, est équiva- 
lent à mesurer la perturbation z, — pu avec une erreur g.. Sie, = g,, 
c'est-à-dire si & — 6,, d'un certain point de vue, les schémas 5.17 
et 6.3 sont équivalents. L'information fournie à l’organe de comman- 
de est la même dans les deux cas. 

L'exemple ci-dessus montre que dans un système en boucle fermée 
également la vitesse d'accumulation de l’information sur le système 
peut être indépendante des valeurs de la commande. Les systèmes 
de ce type s'appellent neutres. Aïnsi, le système représenté sur la 
figure 6.3 est neutre. Bien entendu, tous les systèmes réductibles 
sont neutres du fait que, dans les systèmes en boucle ouverte qui 
leur sont équivalents, l'accumulation de l'information sur le systè- 
me ne dépend pas de la stratégie de l'organe de commande. 

L’extrapolation des résultats de l'exemple ci-dessus au cas d’un 
système continu présente un certain intérêt. Soit la durée du pas 


Ai=+. 
S 


faisons tendre s vers l'infini en maintenant & — const; At tend alors 
vers zéro. Supposons que le problème consiste à construire un système 
de commande pour le cas où g {f) est un bruit blanc stationnaire de 
densité spectrale $,. On peut montrer que si l’on pose 


o5 = 50 (6.87) 


la suite des variables normales indépendantes g, devient à la limite 
un. bruit de ce type. 


$ 2] RÉSOLUTION DU PROBLÈME ET EXEMPLES SIMPLES 293 


Récrivons la formule (6.85) compte tenu de (6.87) 


S—4 
D, (æi—u;) At 


DS = gh —  , (6.88) 
| GyAt 
sAt + D 
Ou 


Etant donné que d’après (6.87) oZAë = S, et que sAf = t, on 
peut obtenir à la limite à partir de (6.88) pour At +0 


Î t 


| (æ—u) di À (x— u}) dt 
2 
TR 


*« S ax ° « 
où a = —, Le deuxième terme de cette expression peut s’obtenir 


Ou 
à la sortie d’un filtre de fonction de transfert (went = 1 pour t{ => 0} 


Le 
Î t 
Usor — La Uent dt — ta ? (6.90) 


0 


si on applique à l’entrée du filtre la différence x — u. La fonction 
de transfert (6.90) n’est pas une exponentielle ; toutefois, on peut I 


Fig. 6.5. 


remplacer approximativement par une exponentielle à constante 
de temps t Æ 1,1 a. Le système voisin de l’optimal est alors celui 
de la figure 6.4. | 

Considérons un autre exemple, un peu plus complexe, lorsqu'on 
accumule simultanément l'information sur la consinge zr* et la 
perturbation z, subie par l’objet B. La figure 6.5 donne un schéma 
dont les blocs B et G sont les mêmes que sur la figure 6.3, mais la 
consigne est canalisée vers l'organe de commande À par la chaîne 
H* où elle est entachée d’un bruit hf. Les équations des chaînes H* 
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et G s’écrivent respectivement 


ys = + hé (5.11) 
et 
Vs = Ug + Le. (6.92) 
L'équation du système B est de la forme 
Ts = Vs TU = Us + £s + be (6.93) 
Soit 
x? = À = const, 2, — u — const, (6.94) 


et; de plus, les variables À, u, g, et h$ sont normales: 


P(u)= aVE exp ne 


P (à) = 


_ ns Go) 
O1 7 | 204 } (6 95) 
P (gs) — (gs) = VE exp me) D 


ht) = p (A*) — { 
P ( s) — p( } — VE exp 26% 
La fonction de pertes élémentaire est donnée par l'expression 
W, — (Ts or 4) — (Ts — À). (6.96) 


Cherchons la stratégie optimale de l’organe de commande À et 
à cet effet calculons au préalable, d’après (6.36), la fonction 


k 
= | (@—1WPO[I PWIN]PU x 


(A, M, Xp) 
k 
X [TI Ptit u)|de. (6.97 
i—=0 


Dans le problème considéré y; = x; et, de même que dans la 
formule (6.67) de l'exemple précédent, 


SR __ (ti ui —u)? 
P(æilu, w)=q(ri—w—u) ya FE}. (6.98) 
En vertu de (6.91) on a 
RS = yS —2i = y — À. (6.99) 
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Donc 


P (y* JA) = p (ui —à) = ve {— He). (6.100) 


En portant (6.98) et (6.100) dans (6.97), il vient 


. k k—1 

œ— | PG)-P@)[IT e@t—2)] [Tati —ui—u) | x 
Q (2, L) i—=0 i—=0 

x | (ru — 2) à (an — ui —n) 9 (x) | 4 (A, u). (6.104) 


Calculons l'intégrale entre crochets de l'expression (6.101) : 


x À (tr — À)? q (Gr — ur —n) der — 


— CO 


= 0g V 21 [02+(A—ur—u)?j. (6.102) 


Cette intégrale se calcule de même que l'intégrale (6.73). Par 
FRaReE, d’ Éd (6.101) et (6.102) 


a Î P (à) [II p Qt —2) | {ar + br + PE x 
i—0 


x (ar 1)" exp { — da RAT (6.103) 


0% 40%ER 
Les notations employées ici sont les mêmes que celles des formu- 
les (6.76) et (6.77). 

Minimisons la formule pour &, par rapport à Un qui n’est con- 
ténu que dans le terme w,. Il se trouve que u* de même que y* — 
= a = min &«, dépendent des grandeurs up, WU, . . ., Un 13. de 
plus, u, 1 est contenu dans les termes Zn 1 et On. Toutefois, dans 
ces termes u, 1 dépend seulement de la différence Dvd — 
= V1. Par conséquent, ur et yh dépendent précisément de cette 
différence. En intégrant ensuite par rapport à x,_1, on peut rempla- 
cer cette variable par une autre variable v, .. Alors, dans l’intégrale 

00 


À VE (@nu—un) dens= À Pins) dns (6.104) 


= 00 


la dépendance dé uw, _1 disparaît. Par conséquent, le deuxième terme 
de l’ "expression (6.60) pour y, -, ne dépend pas de u,_,; dans ce cas 
il n’y a que An 4 qui dépend de w,_1. Au lieu de minimiser y, 4 
par rapport à u:_1 il suffit donc de minimiser @;,_1 par rapport 
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à Un _1 et obtenir u3.1. En poursuivant ce raisonnement on peut 
arriver à la conclusion que tout u* peut être trouvé en minimisant &, 

* , Le Q 37 
par rapport à u.. D'après la formule (6.103) pour «., il suffit d’étu- 
dier sa partie qui dépend de w, = u; — À, et notamment : 


J, = j (uses + … —e)" P (à) [TI P (y*—2) | dà. (6.105) 
l'osons 
de = | AP (à) [II p(y?—à) | a. (6.106) 
= i=0 
Il vient 


= ( 


La condition 


Se) Jo: DE (ue D) Ji, 5 + 68/2. (6.107) 


£ 


dJ's 


Te (6.108) 
donne la valeur uf minimisant J,: 
s—1 
J > J à (ti — ui) 
u* _ = 8 81. __ “1,8 ___ i=0 = (6.109) 
0,s 28,0% 0, $ (= . 
) 


En divisant le numérateur et le dénominateur du premier terme 


de la formule (6.109) par P (y*) [comparer avec (6.21)], on voit 
aisément que ce terme est l’espérance mathématique de la grandeur À 
à l'instant { =5s 


ï AP,(X)dh © 
gs = e —_—- | AP, (A) da = M {A[y*}. (6.110) 


{ P,()dh  “o 
L'intégration à l’aide des formules (6.70) et (6.75) conduit à 


DE 
= Ào T=0 
ee (6.114) 
jen Œjen 


M {| ur) = 52e 
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En portant (6.111) dans (6.109) on aboutit à la formule définitive- 
qui détermine la stratégie optimale 


ko > Ur "1 (Ti —u;) 
Re ER EP 
a 2)" 6+0 . (2) +6+9 + (2) été 


Si les bruits g, et }$ n’existaient pas, pour assurer la condition 
idéale x, — x il faudrait choisir uw, = x — u — À — u. Les: 
deux premiers termes de la formule (6.112) donnent l'estimation 
de à, et le dernier celle de u. Pour les petits s, la moyenne a priori 
de À, peut jouer un rôle important dans l'estimation de À. Mais avec: 
de grands s, le premier terme ne joue plus aucun rôle, tandis que: 
le deuxième terme s’approche de la moyenne arithmétique des y*. 
Pour de grandes valeurs de s, le dernier terme de la formule (6.112), 
comme dans le cas de (6.85), donne [F’estimation de u sous la forme: 
de la moyenne arithmétique des différences x; — u;. 

Lorsque la variance ©; du bruit h* dans la chaîne A* tend vers. 
zéro, le premier terme de l'expression (6.112) disparaît, alors que: 
le deuxième prend la forme de la moyenne arithmétique de la cons- 
tante y* — x$ — À, devenant ainsi une constante z*. Dans ce cas: 
la formule (6.112) se transforme en (6.85). 


$ 3. Exemples des systèmes irréductibles 


Jusque-là nous avons examiné les exemples de systèmes réducti-- 
bles qui, naturellement, étaient neutres. Or, il existe une classe: 
importante de systèmes qui ne sont pas neutres. Les systèmes de ce: 
type sont certainement irréductibles. En effet, si un système est. 
réductible, d’après ce qui précède, on peut le remplacer par un 
système en boucle ouverte; or, un système en boucle ouverte est. 
neutre. 

Par conséquent, il suffit de démontrer que le système n’est pas. 
neutre pour prouver par là même qu'il est irréductible. 

Les exemples les plus simples révèlent sans peine qu'il existe 
réellement des systèmes non neutres et par conséquent irréductibles. 
Considérons, par exemple, un objet B sans inertie dont la grandeur: 
de sortie x, est associée à la grandeur d'’entrée v, par la relation 
(fig. 6.6,a) 


Ls — MiVs T Me (6.113): 


u, et L2 étant les variables aléatoires de densité de probabilité: 
a priori conjointe donnée. Soit la fonction de pertes élémentaire de 
la forme 


W, = (x, — x#)° (6.114y 
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et xë O0. Pour choisir la meilleure valeur de v, il faut connaître 
alors les grandeurs u, et u2. L’examen de la figure 6.6,a montre que 
les suites des valeurs de v, peuvent être meilleures ou pires suivant 
qu'elles assurent une bonne ou une mauvaise étude du système. 
Si, par exemple, pour différents s on choisit la même valeur v, —: v1, 
taractéristique de l’objet et sont insuffisants pour définir sa pente. 
Mais en variant les valeurs choïisies de v,, on peut définir en principe 
complètement ui et M. 
Soient les valeurs admissibles de v, qui se situent dans l'intervalle 
Wu, | & Let soit x, mesuré avec une erreur aléatoire »,. Dans ce cas 
le choix des valeurs voisines v! et v? est médiocre du fait que l’erreur 


a) | Ts 
746 
dr 
Vs 
Fig. 6.6. 


dans la mesure des ordennées des points M, et M2 peut entraîner 
une erreur importante dans la définition des paramètres 1 et Le 
{pointillé passant par les points NW; et W:). Dans le cas considéré 
l'intuition suggère que les points vl et v? soient espacés le plus 
possible, donc placés aux extrémités de la marge admissible. Les 
mêmes erreurs de mesure des valeurs de x, entraîneront alors des 
erreurs plus faibles dans la définition des paramètres (pointillé 
N'N;) et le même nombre de pas assurera une meilleure étude de 
l'objet. | 

Une situation analogue a lieu pour une caractéristique du type 


Es = Mavë À Movs + Ua (6.115) 


Cette caractéristique est représentée sur la figure 6.6,b. 

Dans le cas considéré, même la connaissance précise de deux 
points M, et M: de la caractéristique ne la définit pas complètement. 
supposons qu'il faille établir le minimum de x,; la fonction de 
pertes élémentaire W, s'écrit 


Wi = x. (6.116) 
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La coordonnée v, du minimum de x, avec u >> O0 s'écrit 


H2 
DS — 3 — 6.117 
° 24 ) 
Pourtant, pour définir u, et mu, il faut résoudre un système 
de trois équations linéaires (deux équations ne suffisent pas, car 
après l'élimination de u, on n'obtient qu'une équation) fournies par 
trois mesures qui donnent les abscisses vl, w?, w* et les ordonnées 
th dr de | 
& = Ms (0) + pou! + Us, 
TL = Lu (0?) + pou? + ls, (6.118) 
a = 4 (25)° + Lau? + Us. 
Par conséquent, la stratégie composée uniquement de valeurs 


égales de v, où même comportant plusieurs fois l'une des deux 
valeurs possibles de v, sera mauvaise. L'étude du système ne peut être 


Fig. 6.7. 


bonne que si le nombre de valeurs possibles de v, est supérieur à deux 
et si ces valeurs sont réparties de la meilleure façon. Ce simple 
raisonnement entraîne déjà que dans le cas considéré il ne suffit 
pas de donner à v, les valeurs extrêmes de la marge admissible. 

Considérons maintenant le schéma 6.7. Soit l'équation du systè- 
me B de la forme 


Ts — Us, (6.119) 


u étant la variable normale. La chaîne de réaction passe par le 
canal Æ avec un bruit h,. L’équation de ce canal est 
m=zth (6.120) 


Soit k, la suite des variables indépendantes normales de même 
densité de probabilité 


4 h2 
P (Re) = 4 (hs) = EXP (—} (6.121) 
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La denisité de probabilité a priori de LL s'exprime par la for- 
mule 


P(W= = exp { ur ns | (6.122) 

Soit la fonction de pertes élémentaire 
Ws = (xs — x)°, (6.123) 
x? étant la suite donnée des variables (s = 0, 1, ..., n). Il faut 


chercher la stratégie optimale de l’organe de commande À minimi- 
sant le risque À: 


r-MlS W.) = ÿ R.. (6.124) 
sæ=0 s—=0 


Pour résoudre ce problème, il faut déterminer la fonction &; 
d’après la formule (6.58).Puisque x, = uu,, alors, après cette subs- 
titution, on obtient «; sous la forme d’une intégrale par rapport seule- 
ment à u. Etant donné que P (x, lu, ux) — à (xx — uuz), il vient 


00 
> + 


Ch = Cn (Un, Yh_1) = | (uur—x$)? P (nu) X 


Le 


«(I : DE {— GR} Tan. (6.125) 


20% 


En rejetant le Le constant qui ne joue aucun rôle et en dé- 
signant la proportionnalité par le symbole =, puis en remplaçant 
P (u) d'après (6.122), on aboutit à l'expression 


On = EXP{—Cr1} | Quur — 2%)? exp { — Ar au? + Brau} du, (6.126) 


x 


ou 


(6.127) 


an 
& 
L 
| 
| 
{ 
+ 
| 
|) 
È 
LS 
SR 2 MR 7 


Posons 
Us — TÈ = 2. (6.128) 
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L'intégrale de (6.126). se met alors sous la forme 
Ta = exp {— Mol + Bn-1 (> 


X Î z* exp {2 D 7 + (En at }2} dz. (6.129) 

La formule (6.70) rend possible le calcul de cette intégrale sous 

une forme explicite. En portant l'intégrale 7, dans (6.126), on obtient 
après des transformations simples 


. Où D-1— RER V TO 
Œ ex a 
dE P (ue 40 0h AÀp_ 1 J 7 re 1 Ap-1 À 


(24 rh —2Bp_ Up)? 
x [ut + ÉREPR RE |. (6.180) 


Nous avons posé ici 
= k—1 


Das (S ya) —(S 1) (S 09, 


1 " 
Er 5 u$— 2h D Yili + 5 yi- (6.131) 


La première étape de définition de la stratégie optimale, la re- 
cherche de u*, ne présente pas de difficulté. Le dernier facteur de 
(6.130) (entre crochets) étant Le seul à dépendre sous une forme impli- 
cite de u,, yn — &% —= (&y)min S’obtient en minimisant l'expression 


9 (24n- 147$ — 2Bn-iun) 
+ ni nains (6.132) 


En égalant à zéro la dérivée de cette expression par rapport 
à ur, on trouve la valeur optimale 


__24n-1Bn- TR 
. une (6.133) 


En portant cette valeur dans (6.130) pour £—n, on obtient 
la valeur optimale de &, notée aï ou y: 


CR (x#)2 Va Ans 0BDn-1 1— 0hEn1 4 un 
OT (As F2BR 2) 7) Le d 40 h0h An _1 LAN) 


L'intégration de cette expression par rapport à y,., dans l'inter- 
valle — co << y,., << © donne le deuxième terme de la formule de 
Yn 1 (le premier terme en est &,.4). Il ressort de (6.127) que 4, 
ne dépend pas de y,1. Mais B,_1 dépend de y,_1 de même que 
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D, 1 et E,._1, cette dernière dépendance résultant de (6.131). La 
confrontation de (6.134) avec (6.131) et (6.127) révèle les particula- 
rités suivantes. 

a) D, 1 et E,.: sont des fonctions quadratiques de y, 1; B, 
dépend linéairement de y,.1. Il s'ensuit que l’expression de y3 est 
une fonction complexe de y, 1. 11 semble que cette intégrale ne se 
prête pas en général à la mise sous La forme d’une combinaison finie 
des paramètres. Cette difficulté est en principe surmontable si l’on 
fait appel à l’une des formules d'intégration approchée. Mais la 
solution approchée impose des calculs bien plus nombreux. 

b) Plus important est le fait que 4, _, de même que B, 4, D, 
et £, _: dépendent de uw, _; qui est présent non pas sous la forme de la 
différence y,_1 — u,.1 (s’il en était ainsi, la dépendance de w,_; 
pourrait être supprimée par la substitution z — y, — u, _4). 
Ainsi le résultat de l'intégration dépend de w,.1. Par conséquent, le 
système n’est pas neutre. 

La résolution du problème est rendue beaucoup plus difficile par 
l'impossibilité de réaliser sous une forme générale les opérations 
d'intégration et de minimisation. À première vue il semble que ce 
problème est irrésolvable même sur des calculateurs numériques uni- 


versels modernes. En effet, y» est une fonction de u, 1 et y, 1, alors 
que l'intégrale [y dy, 1 est une fonction de w, _; et y, 2 (sans comp- 


&: 


ter xn), c’est-à-dire une fonction de (27 — 1) variables. Avec de gran- 
des valeurs de nr, la mémorisation et la minimisation de la fonction 
d’ur aussi grand nombre de variables peuvent s'avérer pratiquement 
impossibles, même sur les machines Îles plus puissantes. Toutefois, 
dans de nombreux cas, on peut organiser le calcul de façon à mémo- 
riser des fonctions d'un petit nombre de variables. Ces fonctions s’ap- 
pellent parfois coordonnées, ou estimations, suffisantes ou exhausti- 
ves. Cette appellation est employée dans les mathématiques statis- 
tiques [6.8 à 6.10]. Le nombre de variables dont dépendent les esti- 
mations suffisantes n’est pas une fonction de 7. 

Cherchons les estimations suffisantes pour le problème considéré. 
Posons 


k k 
In d'u, Ma= D'uiyi (k=0, 1,...,n—1). (6.135) 


Nous allons montrer dans ce qui suit que les grandeurs ZL:.; 
et M, de notre exemple sont des estimations suffisantes. Elles 
jouissent de la propriété suivante: 


Li = Lis + ui, | 
k h-1 TT UR | (6.136) 


Mr = Mp-1 + Uayr. 


$ 3] EXEMPLES DES SYSTÈMES IRRÉDUCTIBLES 303 


Les grandeurs Ax.1 et Br s'expriment aisément à l’aide de 
Lp- et M h_1 : 


4 L-_ 
An-4 = El #2 Ù 
ne À (6.137) 
M 
Br-1 — Fo Er mu _ 
OU 06? 


C'est pourquoi, conformément à (6.126), a peut également être 
représenté sous la forme d’une fonction des variables L; 1, M3.4, 
C1, Ur (les autres grandeurs en tant que paramètres connus ne 
s’écrivent pas comme arguments). L'intégration de (6.126) par rap- 
port à u conduit à la forme suivante de @; : 


Gr =: EXP {—Cr-1} [Uk on (Lux, Mn-1) — 
— Untk Dir (Lh-ts Mas) + (GE) Por (Lr-1, Mn1)l, (6.158) 


" 


où 
+ } 
Pin (Dress Mrs) — À u? exp { — Ax_u? + Bu} du, 
Pir (Lu-4s M 3-1) — { EXP {— Ar_ju° + Brau} du, (6.139) 
Pox (Lr-1 Mas) — | exp {— Ar u? + B;4u) du. 
— 00 j 
Compte tenu de (6.127) pour Cx-1 (6.138) entraîne 


1 
{ 
Qx = EXP {or D yi } [uËPon (Lns, Ms) — 
i=0 


—urthQur (Lr-xs Mes) + (xË)? Por (Lr-1, Mh.s)], (6.140 


où le signe = indique la proportionnalité. 

Maintenant on peut procéder à la définition de la stratégie opti- 
male en ne retenant à chaque pas que les fonctions de deux variables. 
En effet, écrivons d’abord æ, sous la forme 


n—1 
À 
5 : > } [unPon (Ln-1 M n-1) — 
=D 
— UnThPin (Ln-1, Mn) + (zh)? Porn (Ln-1, Mn-1)] Eu 


n—1 
= exp {+ 2 ph} (uns nu Mn-1). (6.141) 
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L'expression entre crochets est désignée ici par % (u,, L,-1, 
M, 1}. Le paramètre x? n'est pas présent ici sous une forme explicite. 
Minimisant &, par rapport à uw, on trouve u*# et &@f: 


Un — Un (Ln-1, Mn_1) (6.142) 
“et 
i n—1 
aŸ = exp {— > pt) ÿ* (La Mn), (6.143) 
SR 5 
où 
Ÿ* (Ln-t, Mn) = min Y(Lny, M1, Un): (6.144) 
UnCA (un) 
On cherche ensuite la fonction 
Van = An + | Va dYn1 = 


—2 
tl Ÿ (Un-1, Lo; Mn») + 


= L'XP f 


co n—1i 
À 
+ fes {sr ZW} Un Mas) dun 


n—2 cO 
4 { 
— exp (x 2 fi} te (Un-1, Ln-2s Mn-2) + Je = yr-1 } X 


X P* (Ln-2 + Unis Mn-2 + Un-1ÿn4) dyn-} 16.145) 
Cette dernière transformation se fait compte-tenu de (6.136). Posons 
Pur, Liu, Mis) = (ur, Lrs, Mas) + 


+ exp {— ru) D (Lri+uk, Mn uayr) dur. (6.146) 
+00 

Si la fonction de deux variables 1* est connue, une méthode quelcon- 
que d'intégration approchée permet de définir l'intégrale du second 
membre de (6.146) aussi sous la forme d'une fonction de deux varia- 
bles. 1p étant une simple combinaison des fonctions de deux varia- 
bles, la fonction œ est définie en donnant les fonctions de deux 
variables. Aïnsi 


n—2 
Î à 
2 a > pt} P (Un-1 Ln-2, Mn). (6.147) 
i—0 
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Minimisons Yn-1 par rapport à un-1. Posons 


D*(Leu, Mru)= min œun, Lay, Mau). (6.148) 
UuL EN (u) 


Il est évident que la minimisation de œ donne ux., sous la forme 
un_1 = Uñ-1 (Dr Mn). (6.149) 


Une procédure analogue permet de définir, également par mini- 
misation de @(un-r;s Ln-h-1, Mn-h_1), tout 


Un-h = Uñ-k (Ln-h_1; Mn-n-1) - (6.150) 


Notons que tout au long de la procédure les fonctions à retenir ne sont 
que celles de deux variables. 


Considérons encore un exemple d’un système sans inertie à carac- 
téristique quadratique (fig. 6.8). Ses équations s’écrivent 


Le = NS = (u au “ 
s = — (Us +) | (6.151) 
Us = Le + ha. 

uw est ici une variable aléatoire de densité de probabilité a priori 
P, (u). Le bruit hk, suit une loi normale de moyenne nulle et de va- 
riance 0. La grandeur x* n’est pas présente sous une forme explicite 


(on peut poser, par exemple, x — 0). Toutes les valeurs de W, sont 
nulles, sauf Ia dernière : 


W, = tn. (6.152) 


Supposons que la fonction P,(u) ne diffère de zéro que pour 
[u | & 1. Posons également d’une manière analogue que les valeurs 
admissibles sont restreintes par la condition [u,| & 1. 

Le problème consiste à définir l'algorithme optimal de l'organe 
de commande qui vérifie la condition: 


R=M {W,,} = M {x,} = min. (6.153) 
20—0966 
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Expliquons ce problème. Supposons qu'il existe un système à ca- 
ractéristique parabolique 


x = (u + u}°, (6.154) 
où u est inconnu et la grandeur de sortie x est mesurée avec une erreur 
aléatoire h,. Supposons d'abord qu'avec i = 0, 1,...,n —î 


on essaie les valeurs d'entrée u; et on mesure les grandeurs COITESpOn- 
dantes Yi = Si + hi. Ensuite, avec à = n, on affiche la valeur u, 
telle qu'elle minimise l’espérance mathématique de la sortie x, du 
système. En résolvant ce problème on obtient la méthode optimale 
pour minimiser la fonction parabolique du type (6. 154) en n+1 
pas, { = 0, 1, ..., n. Cette méthode peut être mise à la base d’un 
système optimal de recherche automatique. 

La densité de probabilité du bruit durs par la formule 


P (ki) = VE exp {+ =. ai (6.155) 


il vient 
P . | (Gizi) 
(yilu, U;) — TES P 20% DE 


ER exp{a;+biu+cu?+diu5+ut}, (6.156) 


Oh V/2n 
a vVeC 
___ (yi—u) ___  Zuj(ui—yi) 
RS bi = — eu + 
. (6.157) 
CET (Oui —y;), di —= ——<. 
Oh Ch 


Tout W, étant nul pour 4 << n, tout «, s’annule également pour 
k < n. Il faut obtenir seulement, d’après la formule (6.58), la fonc- 
tion de «&,. Compte tenu du fait que dans le problème considéré 


Par lu, vx) = 6 lei — (ur + y}, (6.158) 


où & est l’impulsion-unité, après substitution x, — (4, + u)? on 
obtient à un facteur constant sé | 


1 
=] (un + u)® Po (u) exp [5 (@i+biu+ cn? + dur +pt} du. 
: a (6.159) 


De même que dans l’exemple précédent, on peut introduire des 
estimations suffisantes qui seront ici 
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n—1 
(l'exponentielle exp b >, a est chassée du signe somme) et dresser le 


schéma des calculs où ne figurent que les fonctions d’un petit nombre 
de variables. Pourtant, ces fonctions sont aussi assez complexes. 
Il est donc commode, si c’est possible, de recourir à une méthode 
approchée encore plus simple. Des calculs effectués par I. Timé ont 
montré que la fonction b;u + c;u? + d;u° + 4 peut être développée 
en série dite de Pike et de Silverberg 16. 13, 6.14], c'est-à-dire mise 
sous la forme 


bu + cu? + du + ut æ qu (gi, wi) fa (U) + pe (gi, wi) fa (u). 
(6.160) 


Ici f1, fo, 1, @ sont des fonctions qu'on peut trouver à l’aide de la 
procédure exposée dans [6.13, 6.14]. Si l’égalité (6.160) est approxi- 
mativement vraie, de (6.159) on obtient 


î n—1 


an & | (ur +)? Po (h) exp {an +2 [pi (Yi, wi) fi (ù) + 
1 


4 ge (us 1) fa QI} du = exp {Ans} | (un + u)° Po(u) X 
1 
X exp {En-fs (H)+ Fra (u)} du, (6.164) 


À: = > Gi = Às-1 + @s, 
i—0 


Es 2 Pa (Yi, Us) = Es + Pi (Us, Us), (6.162) 


en me ne, 0 ee ur” 


F= 2 Pa (Yi, ui) = Fe + Do (Yes Us). 


L'intégration approchée de (6.161) par rapport à u donne la 
fonction 


ÿh = On = Se 1 Ce 4} 09 (En, Fra), (6.163) 
unES(un 


où 63 est la fonction de deux variables Æ, _, et F, 4. La minimisation 
de an par rapport à #, conduit à la commande optimale 
un = Un (En-1, Fn-1). (6.164) 
Cherchons ensuite la fonction 
Yn-1 = | Vn dYn-1 = EXP {An-o} Î EXP {Qn-1} 0% [En-2 + 
+ P1 (Un-1» Un_1), Paz+ Pa (Un-1, Un-1)] dYn-1 = 
== EXP {An-2} On1 (En-o; Fn-2; Un-1), (6.1 65) 
20* 
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où 0: est le résultat de l'intégration qui est une fonction dépen- 
dant de trois variables En, F2, Un_1. Posons 
0%_1—=0%1(En 0, Fno)= min 024. (6.166) 
Un-1EQUn 1) 
En minimisant 0,1 par rapport à u,., on trouve la commande 
optimale 


un-1 =Uun-1(ÆEn-s, Fr) (6.167) 
et la fonction 0%-1. De plus, 
Vn-1 = €XP {An} On. (En.s, Fn-o). (6.168) 
D'une façon analogue on a 
Vn-R = EXP {An-n} OR (En-r-1, Fn-n-1) (6.169) 
(k—=n, n—1,...,0) et les commandes optimales respectives 
Un-h—=Un-h(ÆEn-n-1; Fn-r-1). (6.170) 


La minimisation par rapport à w,_, pouvant être remplacée par 
O0 
une comparaison de la série des intégrales | Va-ht1 dYn-r relatives 


à des valeurs différentes de w, 4, il en résulte qu'il ne faut retenir 
à chaque étape que les fonctions 0%_;, ainsi que les fonctions obtenues 
u* _, c'est-à-dire seulement les fonctions de deux variables. L’obten- 
tion et la mémorisation de ces fonctions sont tout à fait possibles 
sur les calculateurs numériques actuels. 

Il y a lieu de noter que la division des systèmes en réductibles et 
en irréductibles n’est pas basée sur la linéarité ou la non-linéarité 
de la caractéristique, mais dépend de l'inclusion additive ou non 
additive des coordonnées u,; dans la formule de l'opérateur du systè- 
me. Nous avons examiné un système réductible à objet linéaire (6.62) 
et un système. irréductible à objet linéaire (6.119). Notre dernier 
exemple portait sur un système irréductible à objet non linéaire; il 
n’est pas difficile non plus de donner un exemple d’un système réduc- 
tible à objet non linéaire. Ainsi supposons que l’équation de l’objet 
B soit de la forme 
| 2 = Fu + v, (6.174) 


F étant une caractéristique monotone non linéaire. On peut alors 
construire une fonction inverse @ = F1. Soient les grandeurs mesu- 
rées x; et v; = u; + g;. Etant donné que 


U + &i = Q (ti) — u:, (6.172) 


la mesure de x; et u, est équivalente à la mesure de u avec une erreur 
aléatoire g;. Ainsi, un système de commande en boucle fermée peut 


* 


être ramené à un système en boucle ouverte équivalent dans lequel 
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le résultat de la mesure de la perturbation u passe par la chaîne Æ 
avec une erreur 64 = £$- 

_ Voici maintenant une formulation précise du concept de systè- 
mes réductibles sans inertie. Comparons deux schémas représentés 
sur les figures 6.9,a et b dont l'un est en boucle fermée et l’autre en 
boucle ouverte. 

La recherche de la stratégie optimale de l'organe de commande À 
du schéma 6.9,a peut se faire à l’aide des formules de la théorie de 
la commande duale. Quant à la 
stratégie optimale de l'organe de Y\x* % Ne 
commande À” du schéma 6.9,b, L° | ds LÉ m LI 
elle s'obtient par des méthodes bien © z 7 Es ee _ 
plus simples décrites dans le cha- | à | lès 
pitre précédent. La question se pose BE IX | CH 
à savoir s’il n’est pas possible de da Le | Zs 
remplacer le schéma 6.9, a par celui «#1 £ 4% 
de 6.9,b? Il se trouve qu’une telle ? LES fa Lio ONE HEC 
substitution est possible pour une RM 
certaine classe de systèmes, dits 
réductibles. Pour donner une défini- FRe be 
tion exacte des systèmes de ce type, 
supposons que toutes les actions extérieures et les opérateurs G et B 
soient identiques pour les schémas 6.9,a et b et les systèmes soient 
optimaux. Si l’on peut trouver pour le schéma 6.9,b une fonction 


Ws — Ws (Ls he, Zs)s (6.173) 


? 
telle que les sorties w, des organes de commande optimaux À et À 
des deux systèmes soient identiques, alors le schéma 6.9,a est dit 
réductible au schéma 6.9,b. Les algorithmes de À et de A’ peuvent 
différer ne serait-ce que parce que Îles grandeurs appliquées aux 
entrées de ces organes sont différentes. 

À première vue on pourrait croire qu'il est possible de concevoir 
pour n'importe quel cas un schéma équivalent en boucle ouverte. 
Ainsi, pour le schéma 6.7 et les équations (6.119) et (6.120) de l'ob- 
jet B et de la chaîne À} respectivement on peut raisonner de fa façon 
suivante: le fait que ces équations entraînent 


Ya = Us + hs (6.174) 


indique qu'on peut construire l'équivalent de y, comme c’est repré- 
s enté sur la figure 6.10. Cette grandeur peut s'obtenir en multipliant 
Z, = hU par u, dans le multiplieur 7, puis en additionnant les pro- 
duits uu, et k, dans le sommateur Z. Toutefois, on voit aisément que 
le schéma donné par la figure 6.10 n’est nullement identique à celui 
de la figure 6.9,b. Le schéma 6.10 prévoit une réaction locale de w, 
vers y, qui n'existe pas sur la figure 6.9, b. Si l'on imagine les élé- 
ments M et > « incorporés » dans l'organe de commande À (en for- 
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mant ainsi un nouvel organe À”), tout se passe alors comme si pu 
était simplement appliqué à l’entrée de A’. Mais un tel organe ne sera 
pas optimal. En effet, si la grandeur u était simplement fournie 
à l’entrée de À°, on pourrait alors construire un système qui affiche- 
rait aussitôt une valeur idéale de ,. L'’organe de commande À’, 
obtenu par «incorporation » de J et X dans l'organe À, ne peut être 


fs 


Fig. 6.10. 


optimal ne serait-ce que du fait qu’à l’intérieur agit une variable 
aléatoire A,. Or, nous avons déjà montré que pour cette classe de 
systèmes la stratégie optimale est pure. 

Le schéma de Ia figure 6.10 se distingue en principe de celui de 
la figure 6.9,b. En effet, sur le schéma 6.10 on voit directement 
l'influence des valeurs de v, sur le processus de la mesure de la per- 
turbation z, — u. Suivant telle ou telle grandeur de w,, la perturba- 
tion u est mesurée avec une précision relative plus ou moins grande. 
Plus z, est grand, plus uw, est grand par rapport au bruit k,; par 
conséquent, plus la mesure de la valeur de uu, et, donc, de la gran- 
deur u est précise. 

Un raisonnement analogue peut être repris pour le schéma 6.8 
d'équations (6.151). Dans ce cas 


Yys = (us +) + (6.175) 


Ce qui vient d’être dit ne veut point dire que tous les systèmes 
neutres sont réductibles. Ainsi le système décrit par les équations 
(6.119) et (6.120) est irréductible, mais, lorsque les valeurs admissi- 
bles sont u — +1, il devient neutre. Dans cet exemple, le calcul de 
u; peut conduire à une formule définitive. 


$ 4. Généralisation aux systèmes avec inertie 


L’énoncé donné dans ce qui précède du problème de la théorie de 
la commande duale et les méthodes de sa résolution peuvent donner 
lieu à des généralisations différentes, dont les plus importantes sont : 

a) Généralisation aux systèmes à plusieurs sorties de l’objet B 
admettant également plusieurs consignes. 
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b) Généralisation aux systèmes de commande à mémoire, 
c'est-à-dire à la commande des systèmes dynamiques. 

c) Généralisation à une classe plus large de perturbations z; 
et de consignes zŸ. Les vecteurs des paramètres aléatoires u et À, 
par exemple, entrant dans les expressions de z; et x; respectivement, 
peuvent être remplacés par des processus markoviens u; et À. 

d) Généralisation aux systèmes à temps discret » non fixé à l’avan- 
ce. On peut, par exemple, explorer le problème qui consiste à re- 
chercher la stratégie optimale d’un organe de commande À mini- 
misant l'espérance mathématique M {n } du nombre de pas sous la 


1 fr | [2 l 
LE 
LU Us (4 j' | Tys 
s 0. (EE 
s 


À Uzs Uzs 2 


Fig. 6.11. 


condition que le risque élémentaire À, soit une grandeur suffisam- 
ment petite À, < e, où & est une grandeur donnée qui pourtant ne 
doit pas être trop petite pour ne pas rendre impossible la résolution 
du problème. C’est un analogue du problème de commande en temps 
minimal. 

e) Généralisation au cas des systèmes continus. 

Certaines de ces généralisations sont étudiées dans ce qui suit. 

Considérons la généralisation au cas des systèmes à mémoire et 
comportant plusieurs entrées et sorties [6.1]. 

Le schéma fonctionnel d’un tel système est représenté sur la figu- 
re 6.11. Posons que toutes les grandeurs sont fonctions du temps dis- 
cret £ — s(s — 0, 1, ..., n), où n est fixé. Les commandes w:,, 
Uoss : - «, Ur, SOnt canalisées de Ia sortie de l’organe de commande 
A vers le système commandé B par les chaînes sans inertie G,, G:,... 

, G, dans lesquelles les signaux utiles sont entachés des bruits 
Biss L28s » - « Lrs respectivement. De plus, l’objet B subit la pertur- 


bation z, qui, en général, est un vecteur, c’est-à-dire un ensemble 
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de perturbations z;,, (i = 1, . .., w) appliquées, peut-être, aux diffé- 


rentes parties du système B. Donnons le vecteur z, de Îa façon sui- 
vante : 


Zs = 25 (8, LU), (6.176) 

u étant le vecteur des paramètres aléatoires : 
M = (lus Me, +. ., Um). (6.177) 
Les grandeurs de sortie Ziy, Tags « . -, 21, Au système B sont cana- 
lisées respectivement par les chaînes #,, 2, . . ., À, vers les entrées 
de l'organe de commande À en s’ajoutant aux bruits h,, ho, . .. 
..., li Admettons que les consignes xf,, 25,, . . ., is SOnt 


données et appliquées directement aux entrées de l'organe de com- 
mande À. 

Dans les cas particuliers, même lorsque le système compte plu- 
sieurs entrées, on obtient à la sortie une seule grandeur scalaire x, ; 
un tel schéma se rencontre dans des systèmes d'optimisation automa- 
tique. Dans d’autres types de systèmes, la commande uw, n'est trans- 
mise à l’objet que par une chaîne (r — 1), alors qu’on mesure à la 
sortie plusieurs grandeurs x;, (i — 1, ...,1 

Introduisons les vecteurs composés des valeurs des variables res- 
pectives correspondant au même instant { — s (vecteurs multidimen- 
sionnels ou spaciaux). Marquons ces vecteurs d’un trait sans flèche : 


né (ats, 2fe ..., af), Ze (dis, Los, ..., Ts), 
Ys re (Y1s Yoss Yis), Us = (Us, U9sy +.) Urs)» 
Us — (Diss Us» +. rs); £s = (Lis Bass ++. Lrs)) 

Ra (Ass nes 0, Aus). 


Il ne faut pas confondre ces vecteurs avec les vecteurs temporels 
affectés au-dessus d’une flèche : 


(6.178) 


+ + 
# k + * _ | 
Lis — (to; Lilo ces Ris); Lis — (Zio; Lits es Lis): 


Yis = (Yi: Yias c++ Yis)s Ujs = (LU j9, Uji, ..., Ujs), (6.179) 
Vjs = (Vjo; Ujas ce; Ujs) 
CS PR ER 


Avec les notations vectorielles, le schéma 6.11 peut être repré- 
senté sous une forme plus compacte (fig. 6.12). L'ensemble des chat- 
nes G1, . -., G, est remplacé ici par une seule chaîne vectorielle G 
et l’ensemble des chaînes #4, 2, . .., H} par une seule chaîne 
vectorielle AH. 

Imposons au type des équations du système B la contrainte sui- 
vante : supposons que ces équations aient une solution et le vecteur 
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x, puisse donc être défini comme fonction du vecteur u et des vec- 
teurs 04 (k — 0, 1, ..., ss): 


Le = Le (LU, Vo, Vas ces Ve). (6.180) 


Si les conditions initiales sont connues, on les range parmi les 
paramètres de la solution sans les expliciter. Mais si l'on connaît 
seulement la répartition probabiliste des conditions initiales, on peut 
les considérer alors comme coordonnées du vecteur pu. 

Examinons différents cas particuliers qui peuvent se présenter 
pour une telle position du problème. Soit, par exemple, la trajectoire 


bar 


Fig. 6.12. 


du système B décrite par les équations aux différences finies non 
linéaires : 


Ti, sy = P; (s, 2. Lisr + 7 Uiss Ugo Urs) 8 F; (s, u, Le, Vs) (6.181} 
ou 

Leu F (5, B, Ts, Li), (6.182) 
F étant le vecteur de coordonnées F,, ..., F1. 


Les valeurs initiales x, et v des vecteurs x et v étant imposées, 
cette formule permet d'obtenir le vecteur 


=? (0, ma To, Vo) =®, (Le, Vo). (6.183) 


zo étant un paramètre connu, on peut l’omettre dans l'écriture 
générale. Connaissant z,, on peut trouver le vecteur suivant: 


To — F (1, U, Ti, V4) — D; (u, Vo D). (6.184) 


Dans cette équation x1 est remplacé par l'expression (6.183). En 
poursuivant cette procédure on aboutit à la formule du type (6.180) 


du vecteur x.- 
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Un autre exemple peut être fourni par le schéma fonctionnel de 
la figure 6.13. Les parties PB, et B;, de l’objet B sont linéaires de 
fonctions de transfert 


$ S 
3 ee _ 
Lis — à Œik (s, L) Us-h: Las — à 3h (s, HU) Ze, s-h: (6.185) 
La partie B> est non linéaire sans inertie; son équation s'écrit 


Los — F (s, u, Tis). (6.186) 


La relation entre z2, et z1, doit être univoque mais pas forcément 
biunivoque. 
Les équations (6.185) et (6.186) montrent que les grandeurs ts, Zos, 


Zs, peuvent être exprimées en fonction de y et du vecteur v = (vo, 
Ugs + +. Vs), C'est-à-dire qu'il est possible d'établir une relation du 
type (6.180). 

Ainsi, dans le cas des classes très importantes et assez générales, 
la caractéristique du système commandé B peut être ramenée au 


Fig. 6.13. 


type (6.180). Dans ce qui suit nous allons considérer que cette 
réduction est faite et que la fonction (6.180) est donnée. 

Introduisons des matrices spatio-temporelles que nous allons 
marquer d'un trait et d’une flèche placés au-dessus du symbole. Toute 
matrice de ce type est, d’une part, un ensemble de vecteurs tem- 
porels, c'est-à-dire un vecteur colonne dont les « coordonnées » sont 
des vecteurs temporels. Maïs, d'autre part, cette même matrice peut 
être considérée comme un ensemble de vecteurs spatiaux, c'est-à- 
dire comme un vecteur ligne dont les «coordonnées » sont des vec- 
teurs spatiaux. Par exemple, 


Fr ES 
Uior Uaty ses Us Us 
— a 
= Uno, Uoss ., Uns | | Was | = — - 
Us — . . — « — Up» Ua, 3 Us |. (6.187) 
ie 
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De la même façon on peut introduire d’autres matrices spatio- 
temporelles : 


2 Vios ++ Vis Vis 
Vs—=| : =| : |[=fu, ...,%%l, (6.188) 
Uros +. Urs Urs | 
> 
à T0 e--5 Lys Lis : L 
Ls — à — : = | Tps cs LS [, (6.189) 
Eu 
Tior ces Lis | À is 
etc. | 
Choisissons la fonction de pertes du système sous la forme 
ñn 
W=> W,, (6.190) 
S=0 
où 
Wa—= Was, LL, x, re). (6.191) 


Des cas peuvent se présenter lorsque W, dépend explicitement de 
u. Supposons, par exemple, que dans le schéma de la figure 6.12 la: 
relation entre la sortie unique x, et les entrées est définie par la for- 
mule 


Ts — Mr+s 1 2, Qi (Vis — Mi) (Vis — ii), (6.192) 


où a;, — const et v;, sont les entrées du système. Supposons ensuite 
que le deuxième terme du second membre de (6.192) ne peut être 
négatif. La valeur minimale possible de x, est alors u,+1, et les va- 
leurs v;,,—u; minimisent x,. L'écart de x, par rapport au minimum 
s'exprime par la différence x, — k:41 C'est pourquoi, dans le cas 
considéré, si la recherche du minimum de x, doit être automatique, 
on peut poser 

We = Ze — br+s (6.193) 


et imposer la minimisation de l'espérance mathématique dé la 
fonction W correspondante. 
Supposons donnée la densité de probabilité a priori du vecteur 


u que nous allons noter P (1) — P, (u) et les densités de probabilité 
P (gjs) G — 1, 2, ..., r) des variables aléatoires g;.. Pour j fixé, 
les variables g,, représentent une suite de variables indépendantes 
ayant Ia même densité de probabilité P (g;.) indépendante du temps. 
Pour différentes chaînes (j différents) les densités de probabilité 
peuvent être différentes. 
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Les mêmes conditions sont vraies pour les densités de probabilité 
P (h;.:) des grandeurs h,, (i — 1, 2, ..., À. 

Convenons que toutes les actions extérieures subies par le systè- 
me sont indépendantes entre elles. 

Soient les chaînes G et Æ sans mémoire. Il vient 


Vjs — V; (Ejes js} Yis — Yi (his: Lis). (6.194) 
Les données indiquées ci-dessus permettent d'obtenir les densités 
de probabilité conditionnelles P (y;,(x;:.), P (v;.|u;.) et, par consé- 


quent, P (y,lx.) et P (v,lu.). On peut donc établir également les 
densités de probabilité conditionnelles 


P Gis|as)= [1 P Giv[æw), 
Ce (6.195) 
P (Vjs|ujs) = il P(virluir). 


D’après ces densités de probabilité on peut définir également les 
densités de probabilité conditionnelles des matrices P o s | ) et 


P (& ue). 

L'algorithme de l’organe de commande À est caractérisé par une 
densité de probabilité l'; de son vecteur de sortie &,, dépendant en 
général de toutes Les valeurs antérieures des entrées de l'organe de 
commande et des valeurs courantes des consignes : 


P; (Us) = l': (us |x#, Ye-4s Us-4)« (6.196) 
Le problème consiste à trouver une suite des fonctions l, (2 — 
— 1, ...,n) et une densité de probabilité initiale LV, = P (wo) 


telles qu’elles minimisent le risque À, espérance mathématique de 
la fonction de pertes W définie par (6.190) et (6.191). 
D'après (6.191) et (6.180) 


W:s=W;: [s, p, Le. Ts (s, u, v)]=W, (s, p, 2 v). (6.197) 
Bornons-nous à déduire l'expression *) du risque À, la matrice 


5 étant fixée. 
Supposons connue la densité de probabilité conditionnelle con- 
jointe 
+ > > 


P (u, Us; Vs, pal). 


+} Cette déduction peut se faire de la même façon que pour le cas des sys- 
tèmes sans mémoire. Dans ce qui suit nous donnons une autre déduction. 
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Dans cette expression figure la matrice y,_1 du fait que d’après 
+ = 


(6.196) la matrice u, est associée précisément à y,.4. 
Le risque élémentaire R, relatif à l'instant £ — s s'écrit 


R=M{Wl|x}} = | Was, B 27, Ds) X 


x P(u, Us, De, ÿ Ys-1 | 7!) as, (6.198) 
Le Re du produit des probabilités entraîne 


+ + + > > 


P (u, A Ds. nul) — P {u) P (Us, Us, Yo mm L, 7?) (6.199) 


Cette formule est vraie si seulement u et x* sont indépendants. 
Considérons le deuxième facteur du second membre de l'égalité 
(6.199) et RSR à sa transformation : 


+ + > + 


P (vs, Us, a 111 +) =. lis +) P (sl us, UYs-—1; u, Ti) = 


= P (ue, Vs [hs 2) P (6: PA Yi H). (6.200) 
Cette dernière transformation est légitime car la densité de probabili- 


> 


té de la matrice v, est complètement définie en fixant Us, Ys-1) Le 


et une information supplémentaire sur T; ne peut pas la modifier. 
Il n’est pas difficile de montrer ensuite par analogie avec (6.25) 


que 
P. (us, Ys- ,[B 2) = P (Lo, AT dE P (44, 7 Ugs Yo 7) X 
X P (u, Yilu, Ut, Ys, à) P (u:, yill . V;- 1 zŸ) Ce 


s.. X P (Us, Ye-1 | p, TRE 7 7) P (uTR us, 7e 73). (6.201) 
Considérons l’ i-ième facteur de ce produit (0<i<s): 
P (ui, Yi | L, Ut, Yi zŸ) = 


— 


RE de: ca me — rs 
= P (yilu, Uÿ, Yi-1: a$)-P (u;|u, Uj_4, Yi-1, tŸ) ee 


= P(yili he yes, ui)-Ti (ui [usa yrs 2). (6.202) 
En effet, la densité de probabilité de Yi s'obtient ayant fixé Lu, 


Y:.1 et u; et une fixation supplémentaire de x? ne la changera pas. 
Dans la formule de la densité de probabilité de y; on souligne sa dé- 
pendance explicite de l'instant à. 
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Le deuxième facteur de, (6.202) l'; est la densité de probabilité 


de u;, qui d’après (6.196) ne dépend que de u;.4, Yi a. 
En portant (6.202) dans (6.201), on a: 


D er. a 
P (es, Ys-1 | M; Ts) ES Î À Tee [] P (Yi | l, Mes Yi-1 Uÿ). (6.203) 
i è— 
Nous avons posé ici 


P (Yoli, y bi uo) = P (fol é, bn ue); To= Polo, 2). (6.204) 


Portons l'expression (6.202) dans (6.200), puis (6.200) dans 
(6.199) et (6.199) dans (6.198). L'expression de R, devient alors 


Ro Wish, v]-P(H-P(u, 4 D) x 
e (y, DR Ta 7 
s—A + _ à + > — 
X Il P (y: | l, Yi-13 M Uj)- Ii li (u; [ui-s, Yi-1; ti) de, (6.205) 


i=0 i=0 


Le risque total À est toujours défini par l'égalité 


R=VR. (6.206) 


s—=0 


Dans le cas particulier du système B ne comportant qu’une 
entrée et une sortie les matrices spatio-temporelles de la formule 
(6.205) sont remplacées par les vecteurs temporels et les vecteurs 
spatiaux, par des scalaires. Dans ces conditions, l'expression (6.205) 
s'écrit | 


R, = | We (s, u, x, vs) P (u)-P (Us | Us, Doi u) X } 


QG, Per up Vs-D 
s—1 = + —+ $ — —+ =: 

x I Pit, us 29 [] Te(uifurs vis at) de. (6.207) 
4— 2— 


Cette expression est plus générale que (6.57) puisqu'elle tient 
compte de la mémoire que possède le système B. Aussi dans la formu- 
le (6.207) W, dépend-elle non pas du scalaire v,, mais du vecteur tem- 


porel v,, ce qui entraîne la nécessité de prendre en considération la 


densité de probabilité P (v, lu. y, n. u). De plus, la densité de pro- 
babilité conditionnelle de y; dépend maintenant non seulement de 


la valeur de u; maïs aussi du vecteur u; tout entier, c’est-à-dire de la 


$ 4] GÉNÉRALISATION AUX SYSTÈMES AVEC INERTIE 319 


« préhistoire » de la grandeur de sortie du système B ainsi que de 
Yi-1 En l'absence de la perturbation g,, lorsque par exemple u, — 
= Vs, P (y;) ne dépend pas de y;.-#. 

Pour définir la stratégie optimale considérons, de même qu'au 
$ 2 de ce chapitre, le risque élémentaire R,, en supposant que les 
densités l'; (i = 0, 1, ..., n — 1) soïent fixées. Posons 


+  — 


Ch — CR (ux, Yh-1s zà) — { Wr (x, u, th, Un) X 


Q (, 7) 
+ +  — R—1 > = 
x P (u)°P (va ]ux, Yh-1: u)-I] P (y: | l, Yi-1s M, Ui) df2, (6.208) 
i=0 


k = 
Pour 4—0, la grandeur [| P(y;) doit être égale à l'unité. 
i=0 


Désignons également 


Ba = Pa (a, 7, Hi) = l';. (6.209) 
On a 
Rn— À Gn(n uns 25)-BnuTn dO = 
a (in D _0 
= [| Bas (ans Un-u &) dQ, (6.210) 
CT DA 
avec 


Kn (un-1, dits à) . 
= | On (us: TS Us, x) la (Un TA li 2%) dag2. (6.211) 
Q (u,) 


Le choix de la fonction T, qui est une densité de probabilité est 
restreint par la condition 

Ta (Un, Un-1s Unes Là) AQ — 1. (6.212) 

Q (u,) 


Le choix de la fonction l, vérifiant la condition (6.212) doit 
assurer la minimisation de la grandeur À,. Or, cette grandeur sera 


minimale si pour tous u,_1, ÿn-1, la grandeur #, est minimale, ce 
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que l’on obtient en prenant 
Th = Ô (Un —u*). (6.213) 
Ici 8 est l'impulsion unité et la grandeur u# est définie par la con- 
dition 


— > > + 


— 


Vn = Un (ux, Un-1» Yn-1s Ln) = min Œn (Un, DAS lis ti). (6.214) 
un € (u,) 


D'après (6.214) la commande optimale u* dépend de wh-41, 

Yn-t: Le: 
ui = u* (us: TT T}). (6.215) 

Ainsi on établit que la stratégie optimale l', n’est pas aléatoire, 
mais pure. Le choix de la commande optimale u% est donné par les 
formules (6.214) et (6.215). 

En passant d’une façon analogue à l'examen de la somme des 
termes À, + R,, puis de R,.2 + Ru + R,, etc., on peut trou- 
ver les stratégies optimales élémentaires l', (i—n—1, n—2, ...). 
Une démonstration de ce type est donnée au $ 1. Voici ce qui en résul- 
te. Introduisons la fonction 


Ye = Gnat À vip d0, (6.216) 
Q (Un _h) 
en outre, Yh —=Gn El 


Vhan = (Yn-2) Une = UŸ-h, (6.217) 


alors que la valeur de uw, est fournie par la condition 
- + ns _ 
Vr-k (Un, Un-h-1; Yn-hk-1» Tn-x) —= 
e ms es _ 
= (MIN  Yn-k(Un-k, Un-h41, Yn-u1, An-x). (6.218) 
Un_REQ (Un-h) 


Ii est évident que 


Ur = U% ph (Un-h_1, Un-h-4 LR). (6.219) 
La stratégie optimale [%_x est définie alors par l'expression 
TE p = Ô (Un-n —U*_r), (6.220) 


c'est-à-dire c’est une stratégie pure; de plus, la commande optimale 


u*_, donnée par (6.219) dépend de la « préhistoire » des grandeurs 
d'entrée de l'organe de commande À ainsi que de la valeur courante 
dé 7% _p 
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On généralise aisément les formules déduites ci-dessus au cas 
de la consigne x* fournie à l’entrée de l’organe de commande par une 
chaîne comportant des perturbations. La déduction est analogue 
à celle donnée au $ 1 de ce chapitre. 

À titre d'exemple de l’application des formules obtenues, exa- 
minons le problème de synthèse de l’algorithme d’un organe de com- 
mande optimal À pour un système de stabilisation automatique. Le 


Fig. 6.14. 


schéma fonctionnel du système est donné par la figure 6.14. Le systè- 
me commandé B est composé de la partie B, munie d'une mémoire 


et de La partie B> sans mémoire. Les équations de ces parties s'écri- 
vent 


& 
We — 2 AnUs-h, Ts = UM + We. (6.221) 
a, sont ici les constantes données, u la variable aléatoire de densité 
de probabilité a priori donnée P (u) = P, (u). L'équation générale 
de l’objet B peut s'écrire 


La =U + à ApVg_he (6.222) 


Les termes de la suite des variables indépendantes £, ont la même 
densité de probabilité g (g.,). Les fonctions P (u) et qg (g,) sont des 
densités de probabilité normales 


u? 
PAS ep | —E } : 
(6.223) 
q(gs) = es p{— de) 
L'équation de la chaîne G est de la forme 
Va = Le + Use (6.224) 
La fonction de pertes élémentaire est définie par l’expression 
W, = (x, — zé}°. (6.225) 


21—0966 
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Dans ces conditions la fonction de pertes totale devient 
ñn | nr 
W — > W:=— > (ts — 25). (6.221) 
s=0 s—=0 


Dans le cas particulier de systèmes à entrée et sortie uniques, 
la formule (6.208) permet d'obtenir une expression de «a; sous la for- 
me suivante 


+ : 
Ch = On (Ur, Yh-1, TK) — 


== | W (k, u, st, vx) P (p)-P (tr lun, Ya, U) X 


Q CU, 3) 
k—1 . . 
X [I P(yilé, puis, u:) d. (6.227) 
i—=0 


Dans l’exemple considéré *} 


| . R 
2 1 u2 
Up = | (u—at+ Gobh-p) —— exp {hr} X 
2 ou V2x 204 


Ru, v3) 
> + …. = — 
X P(vrlur, æn, n}e [] P(yilé, Lu, via, wi). (6.228) 
i—0 


Cherchons les expressions P(Calun, ru u)et P (y: |é, ui, Yi, U). 
Il ressort de la formule (6.224) que 


( vi ui)? | 
Pilu)=g iu)= 2 7nexp {Et}. (6.229) 


Etant donné que les grandeurs aléatoires g; (i — 0,1, ..., k) 
sont indépendantes, v, ne dépend que de u,. Par conséquent, 


P(Drlun, th, D) = P (val ua): P (Cas | uns, ns )= 


À { De —+ — + 
= ——— ex — "+. P Ua | Up Th ; 6.230 
= P 207 (Un-4 [Un-4, Tr-1, L) ( ) 
: —+ — — — 

Cherchons d'abord P (y;li, LM, yis, ui) = P (yi| 1h, yi-s, wi). 

L'indice à à droite du trait vertical peut être omis car les équa- 
tions du système B et de la chaîne G ne dépendent pas de à. 

*) {6.1], dans cet exemple, ne prend pas en considération la dépendance 
de P (ÿ;)et P (v;) de TT ce qui simplifie les formules mais risque d'aboutir 
à l'algorithme qui s'avère loin d’être optimal. Nous donnons ici des formu- 
les précises. SES Fo 
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On tire dela formule (6.222) : 


= h+ : Gin = U + à ap (ui-p + &i-p), | 
maSh+ D averor+ Da lustane), | (6230 
To =H SR + do (Uo + Lo). 


C'est un système d'équations linéaires par rapport à go £g1,..., 84 
Récrivons-le sous la forme suivante:  % 


i £ 
2 dopBi-p — Li —U— 2 GplUi-p; 


i— 1 | 
à dpBi-1-p— dis 2 dpli-1-p; (6.252) 


do£o — Lo — M — Goo. 
Désignons les seconds membres de ces équations par b;: 


ti —lU— D, Goli-p = b;, 
p—0 
1 
ue Na =bie. | (6.233) 
2 Get : 


Lo —U — dou = Do. 
Si on élimine du système (6.232) les variables. Lo: 8 He Bi 


on obtient la relation entre x; et g; pour Ti u et u; étant fixés. 
Désignons le déterminant du système (6.232) par A: 


di i-1 >» =. &:i Go' 


Œi-1 Ai-2 ... ag Ù 


ARE Res | (6.234) 


Comme a, n’est pas nul (s’il n’en était pas ainsi l’équation (6.222) 
entraînerait que zo — u, c’est-à-dire que le paramètre u est connu 
exactement), le déterminant À n’est non plus égal à zéro. 

En résolvant le système d'équations on trouve £g;: 


gi = à Kij0j: (6.235) 
j—= 


21e 
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Xi; étant les constantes exprimées à l’aide de &s, . . ., a; d’après 
les formules connues: 


€; ji CRE €: 0 
di-: Œj-9 CRC 471) 0 


My= | ........ 1| (jième ligne). (6.236) 
di po -..: 0 
&o 0 .…. 0 


La formule (6.233) montre que seul b; dépend de la grandeur x;; 
cette dernière, affectée du coefficient %;;, est présente linéairement 
dans l'expression (6.235). 


C'est pourquoi la densité de probabilité P (x; [u, U,, x; 4) peut 
prendre la forme suivante: 


P(tilu ui, 24) = | T° ma Pl . (6.237) 
£g 


— — 
Maintenant on peut écrire l'expression définitive de P (v, 1 [up 4, 


Zn.1, LU) de la formule (6.230). Les valeurs v,, . . ., v,_1 s'obtiennent 
directement à partir de u, æo, . . .«, æx_1 données, d’après (6.231). 
Les solutions de ces équations s'écrivent d’une manière analogue 

à (6.235) mais en remplaçant g; par v,; maintenant par b; on entend 
te grandeurs x; — a (j — 0, ..., k — 1). Aïnsi 


L 


UV; — > Kij (x; — Lu) (=; …., k— 1). (6.238) 
j —0 


= 
L — Le À > : , =: 
Par conséquent, P (v,_41[ux_1, Zn 1, u) devient une impulsion 
unité et dans l'expression (6.228) de «x la variable d'intégration 


a} 
Ur 4 est remplacée en conformité de (6.238). Nous aboutissons ainsi, 
à un facteur constant près, à DRE 


CR = | À LH — GË + aovr + ÿ 45 Kh-p, j eu) | x 
H= 00 V},=— 00 p—i  j—0 
pu?  (vr—uxr)? 
X EXP 9 205 202 
k—1 j 


e ! N 
— 0 5 00 f'Audus. (6.239) 
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Introduisons les notations : 


R k—p \ 
ah" = == Th — our — 2 p 2 Hh-pe ji Lj; 
= 
=> 3 (z5— - > aplj-p); > kij= di; 
R k—p d:zx{° 0) 
;2{ 
Fi=1—Y dp > Hh-p, j FT S) HT | (6.240) 
p=i  j=0 i=0 À 
1 k-— 1 R—i (y 
Cra=+ (D à ra + > 0; Dra= Y 7962 ? 
i—0 i—0 
PL. — Br1lr ao 


Après transformations l'expression (6.239) devient, à un facteur 
constant près: 


k—1 
” (O _ 4:.u12 
RS — u? D LR 
Œh — On (Un, Th-1, Th) + Le 20 20 
X | | [Fu — 2 + ao2x?] exp {— DE L des | du, (6.241) 


Zn 90 
où Zn —=Vh—ur. L'intégrale 7, entre crochets est égale, à un fac- 
teur constant près, à l'expression 
(zx — Fru)? 


Tr = 1 + PTE (6.242) 
8 
C'est pourquoi 
: ns COS ANTE 
U= — 00 
. ù Le — ul 
X exp | — 2e 2 du (6.243) 


ou, après transformations, 


GR = EXP {— Dr} | | exp {— Cr? + Bx-1u} du + 


(xx Fu) 
+ EE exp{— Crau + Bin) ]du. (6.240 
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En définissant les intégrales entre crochets (cf. [5.26]), on aboutit 
à l'expression 


_ B_; Fi, 
a = exp {Dites} (f+ mens +): (6245) 


Dans cette formule “ qui s'écrit 


— Br- _ (O% __ Ca diFh 
Er "CR A —— Th > th CR- 208 Cas CR 1) 5 Ki] X 
3—=0 


î À 
X (x apu-p) — TE + D an-juj (06.246) 
p=0 j—0 


est la seule à à dépendre de u. 
_ Compte tenu de (6. 245) on en tire que la minimisation de @, 
par rapport à uw, se ramène à la minimisation de £, par rapport à Un 


et cette dernière s'obtient si on choisit un u tel que Æ, — 0. Par 
conséquent, 
1 e'iar : 
Print Dr = ou 
Un — a E 2 (x Ci + an-1) >, Kij X 
i= j=0 


où À, désigne l'expression entre crochets. 

Telle est la stratégie optimale au n-ième pas. 

En passant de n à n — 1, il faut intégrer y? — &À par rapport 
à Th, puis ajouter à l'intégrale la fonction &, _1, après quoi on peut 
trouver la valeur u»_, minimisant l'expression obtenue. La formule 
(6.245) montre que pour £, = 0 la fonction «, — «x dépend de 
uU, 1, cette grandeur faisant partie des expressions de D, ., et B, _1. 
Pourtant, la substitution 

n—{ 


Br À anti ns (6.248) 


et l'intégration par rappor. à la nouvelle variable à, _4 de —o0 à +oo 


montrent que | an dxh-1 ne dépend pas de w,,. De ce fait la minimi- 
— 00 

sation de Y,_1 par rapport à 4, _, Se ramène à la minimisation de &:.1 

par rapport à U, 1. Des raisonnements analogues montrent que, pour 

tout k, ui s'obtient en minimisant &;, ce qui se ramène à une sélec- 

tion de uÿ telle qu'elle vérifie la condition £, —0. On en tire la 
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stratégie optimale pour un s-ième pas quelconque: 


è î s— 1 
K 
x D x; (> ape) — ÿ Qs-jus | =, (6.249) 
j=0 p=0 ÿ—0 | 
où K, désigne l’expression entre crochets. 

Le sens physique du résultat obtenu devient plus clair si l’on tient 
compte du fait que 


À î 
U=ti—Wizti— 2: Œi_-j0j = Li — 2 (ei-;(u; + 8;)1= 
= = 


= (æ Fe à @i-ju;) = > &i-jg;. (6.290) 
3=0 j—0 


Le dernier terme de cette expression est aléatoire et sa variance 
dépend de i. L’expression entre parenthèses est une moyenne. Ainsi, 
le deuxième terme de la formule de Æ, donne l'estimation de la gran- 
deur aléatoire u. Les différentes mesures de u entrent dans cette esti- 
mation avec des poids différents du fait que les variances diffèrent 
d'une mesure à l’autre. 

Le dernier terme de la formule de X, est une moyenne des résul- 
tats des actions précédentes uw; (j << s) qui reste conservée à l'instant 
t — s grâce à l'existence d’une mémoire. Pour définir u$ il faut évi- 
demment tenir compte de ce reste. Ainsi le sens physique de tous les 
termes de la formule (6.249) est bien clair. 

On peut montrer, sous certaines conditions supplémentaires, que 
pour un s suffisamment grand le terme médian de la formule de K, 
se ramène à la grandeur 


g—1 i 
LD (a Da), (6.251) 


i=0 3=0 


c'est-à-dire à la moyenne arithmétique des mesures de pu. 

En principe, on pourrait étendre le résultat obtenu au cas d’un 
système continu. Si dans le cas continu la relation entre w (f) et 
v (t) est celle, par exemple, d’un élément avec inertie de fonction de 
transfert 


1. 
KD)=TETS (6.252) 


on a alors 
t 


w (t) = À b(r)v(£— 7) dr, (6.253) 
0 
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avec la fonction de pondération 


{ 
b{t} = Fe XP { 7} : (6.254) 


Rendons discrète l'équation (6.253) en posant 


w(t)& > b(E) 0 (£—1,) At = : av (t—t,)= : AnVs-p: (6.255) 
où 
= _ M y pAt __ Ai 
ap = b (b) At = 7 exp {5} : S'RE (6.256) 


En portant a, dans la formule (6.249) de la stratégie optimale on 
pourrait, en faisant tendre Af vers zéro et en posant sAt = #, obtenir 
à la limite une stratégie optimale pour le cas continu, de même qu'il 
en a été dans l’exemple exposé au $2 de ce chapitre. Toutefois, et 
des considérations physiques en font foi, dans ces conditions ag —-0 
et, par exemple, la valeur de uf de la formule (6.247) devient infi- 
niment grande. Il en est de même pour d’autres u.. Or, pour un sys- 
tème réel la seule solution ayant un sens physique est celle qui cor- 
respond aux valeurs limitées de u,. C’est pourquoi dans le cas discret 
on peut introduire encore une condition supplémentaire, par exemple 


ue l< AW, (6.257) 
où M est une certaine grandeur constante. 


Pourtant, la stratégie optimale se modifie dans ces conditions. 
Ainsi au lieu de (6.247) il faut maintenant écrire 


7 si | a LM, 


(6.258) 


un 

LS | K | 

M sign —© si EE 
an a 


L'exploration de ce problème montre que maintenant | VRÉLn 4 


dépend de w, 1 et le système ne peut plus être considéré comme neu- 
tre. Les calculs deviennent donc bien plus compliqués. 

Le système considéré est-il réductible? La réponse à cette ques- 
tion est affirmative. La définition d'un système réductible, donnée au 
paragraphe précédent, peut être étendue également aux has 
avec mémoire. À cet effet, au lieu de la fonction f (s, z,, £s, hi), 
caractéristique du bloc E£ (fig. 6.9, b), il faut considérer une fonction 


plus complexe j (s, 2, £.. h), où 2 g., h. sont les vecteurs tempo- 
rels respectifs. Dans l’exemple concerné, en vertu de (6.222) et 
(6.224) et compte tenu de (6.250) on a 


+ », GRüi-R = MU + > OR £i-he (6.259) 
kh=—0 k—0 


g 1] GÉNÉRALISATION AUX SYSTÈMES AVEC INERTIE 329 
Par conséquent, la combinaison des grandeurs mesurées qui figu- 


re dans le premier membre de cette égalité, constitue l'équivalent de 


la mesure de la grandeur u avec l'erreur aléatoire : An£s-r. Ainsi, 


la formation des grandeurs x? utilisées dans l’ onu me * commande 
est complètement équivalente à à la mesure de la valeur de u dans un 


schéma en boucle ouverte équivalent, représenté sur la figure 6.15. 
Ce schéma correspond à l’équation (6.259). Le bloc € est caractérisé 
par l'équation 


— À, Angsh; (6.260) 
k=0 


où g, est l’entrée et g la sortie du bloc. Ce bloc est identique au 
bloc BP; du système. 

Le schéma considéré étant réductible, il doit être neutre dans ce 
sens que la vitesse de l’étude du système B ne doit pas dépendre des 
valeurs u,. Quelle est alors la cause du fait qu'en présence de la 
contrainte (6.257) l'intégrale 


| Yn—k dXn-1 


dépend quand même de uw, _, ce qui complique considérablement les 
calculs ? Il se trouve que cette cause réside dans le fait que pour les 
systèmes à mémoire l’intégrale caractérise non seulement le risque 
d'étude, mais encore la partie connue du risque d'action, ou plus 
précisément, le risque de « postaction ». En effet, la commande w, 
appliquée à l'instant { = s exercera son influence sur des zx, pendant 
les pas suivants (4 => s), la postaction se produisant également dans 
le schéma 6.15. Tant que la contrainte (6.257) ne jouait aucun rôle 
cette postaction pouvait être négligée. En effet, la loi de commande 
optimale (6.249) comporte un terme (le dernier entre crochets) qui, 
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précisément, compense toutes les « traces » des actions antérieures 
conservées à la sortie par la mémoire de l’objet B. Pourtant, si u, 
est borné en module, une telle compensation peut devenir impossible. 
La commande u, intervient alors également dans les valeurs ultérieu- 
res de x, même dans un système en boucle ouverte (de même que 
dans un système en boucle fermée équivalent de la fig. 6.14). Il ne 
faut pas confondre cette influence avec le risque d'étude; dans les 
systèmes réductibles elle prend la forme d’une composante du risque 
d'action qu’on peut appeler risque de postaction. 


$ 5. Généralisation aux systèmes markoviens 


Considérons maintenant la généralisation à une classe plus large 
des processus aléatoires z; et x? [6.9, 6.101. Soient 


Zs — Zs (s, Lis) (6.261) 
et 

zt=at(s, À), (6.262) 
où, à la différence de l'exposé précédent, pet À, ne sont pas des varia- 
bles, mais des processus markoviens aléatoires discrets. Les systè- 


mes où Us est un processus markovien sont dits systèmes markoviens. 
Les vecteurs 


Bs= (ul ..., pr) (6.263) 
et 

As = (AL, ..., À) (6.264) 
sont des ensembles des grandeurs scalaires uiet M (i=1,...,m, 
rl , d). Dans le cas général, uf et u?sont des processus marko- 


viens discrets scalaires associés entre eux. Ceci est vrai également 


pour Àf et A. Pourtant, nous considérerons les vecteurs u, et À, 
ainsi que les ‘bruits k2. h. gs indépendants entre eux. 

Soient les caractéristiques probabilistes des processus markoviens 
u, et À. Cela signifie que les densités de probabilité initiales P, (uo) 
et P, (Ào) pour { — 0 sont données de même que les densités de proba- 
bilité de transition, c'est-à-dire P (u;+1u:) et P (Air: [A;). Pour le 
reste le problème est le même; seulement pour simplifier, bornons- 
nous au cas où le système B n’a qu'une sortie et une entrée. Supposons 
que le système soit sans mémoire. La généralisation aux systèmes 
à mémoire et à entrées et sorties multiples peut se faire de même que 
précédemment. Pour la généralisation considérée, il faut introduire 


les matrices u, et À. composées de vecteurs colonnes pu, et À, : 


Lee D) 0 1 24) (6.265) 
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Le risque élémentaire r, est donné par la formule très proche des 
formules précédentes et qui ne s’en distingue que par À, qui vient 
remplacer À. Par ailleurs, dans les formules ultérieures, au lieu de u 
figure nu. Ainsi 


= M{W,]|y}, ÿs- {° Us) = 
- | Was, ta at (s, M) P (A, æelU*, U.4, Yes) dQ. (6.266) 


Q (As *,) 


Ici P(A, z|vt, UE 1 1e) est la densité de probabilité condition- 


nelle conjointe .de 7. et xs pour les vecteurs fixés y}, Ya Us-1. 
D'après le théorème du produit des probabilités 


P (às, Ts | US: Us-t, Ys4) = P (Xs|YS, Us-1, Ys-1, Àa) P (As | US: Us-tr Ys-1) — 
= P (| y?) P (sl ut, usa, Yes). (6.267) 


Cette dernière transformation se vérilie du fait que la densité 
de probabilité À, avec y* fixé ne changera pas si l'on fixe encore 


Us - 1: y (cf. fig. 6.2). Ensuite, la densité de probabilité de x, avec 


y fixé ne changera pas si on fixe encore À... Récrivons le deuxième 
facteur de (6.267) sous une forme développée : 


P (ts |Y?, Users, Ye) = 
T Î P (xs | Les, Us) Ps (Us) Ts (Us ys, Us, Ys-1) GX, (6.265) 


ER (LUS) 


Pslus) est ici la densité de probabilité a priori de Us au 
s-ième pas : 
P, (us) = P (ls | Ue-1: Ys-1 Us) — 
= À P(uIns)-P (helps es y+) d@. (6.260) 


Q(Us-1) 


Etant donné que 


P (ls-1| Ys-1 Us, Vs) = | P (Us-1| Ys-as Us-1, Ys) d, (6.270) 


= 
Q(us-2) 
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il faut rechercher la probabilité conditionnelle P (sal vers y, y) 


pour la matrice u.,. L'égalité 


P (leu Us-1, Ys-1| Y5) = P (us-1, Ys-1 ] is-1, ye) P (Uis_1) — 


= P (hs-1 | Us.s, Yss, Vs)" P (Us, ys1| US) (6.271) 
entraîne : 


Ps (Us_1) ? (Us | Ug-4, Ys-1) y3) — 


= P (gs Veil Het V5) P (sn) (6.279) 
P (Use 1: Yg8-1 | y*) 


P (us TT Ye. 19?) ) est ici la Feet e probabilité conditionnelle 
a priori conjointe des vecteurs Us Vs 1: P (is) la densité de pro- 


babilité a priori de la matrice .. et P (us à: Vs | bots y) la densité 
de PROFS conditionnelle conjointe de Us et ÿs- ,, la matrice 


Te et y (fonction de vraisemblance) étant fixées. Des calculs ana- 
logues à ceux effectués au $ 1 amenent 


3 Po(uo)- EP Geo (TT au à u;)]: LCI ri 
i—0 
Ps (us) = 
P a Ys-1 y+) 
En portant (6.273) dans (6.270), puis (6.270) dans (6.269), (6.269) 


dans (6.268), (6.268) dans (6.267) on obtient le deuxième facteur de 
(6.267). Considérons maintenant le premier facteur de cette expres- 


sion, qui est la densité de probabilité a posteriori du vecteur À, : 


Ps) = P (| y) — | P (| y?) d0. (6.274) 
af e-1) 


Etant donné que 


Ps, y) = Ps) P (ui lhs)= P (Asus): P (yë), (6.275) 
il vient 


P, (Re) = P (h}e rie (6.276) 
yé 
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La densité de probabilité a priori P(A:) de la matrice À, est 
définie d’après la formule vérifiée pour un processus markovien 
P (hs) = P (Ag: Musee de) = 
= P,(h)-P (lu [0)-P (af) ... P (As | Às-1) = 


= PQ] PRIT. (6.27) 


La chaîne . ' étant | sans inertie, la densité de probabilité con- 


ditionnelle de y pour 4, fixée s'obtient de la façon suivante: 
P (y: Fo) = P (y$ fo): P (yi |)... P(yËlXs) = [] P(y*l). (6.278) 
(6.276), (6.277) et (6.278) amènent : 


s S 
Po Ro): [] PGlR-0- [TP GR) 
D (6.279) 
P (y$) 
En portant (6.279) dans (6.274) nous aboutissons à la formule 
définitive de P, (A). 
Après les substitutions indiquées, en portant ensuite (6.267) 
dans (6.266) on peut obtenir la formule définitive du risque élémentai- 
re conditionnel r,. Si l’on considère les valeurs de r, fournies par des 


épreuves différentes, les vecteurs y , Us et y. , inconnus d'avance 
peuvent prendre des valeurs différentes et sont aléatoires. Leur den- 
sité de probabilité conjointe 

P(Y5, Us, Yss) = P (us4s Ys-1| 73) P (us). (6.280) 


Le risque élémentaire R,, qui est une moyenne de r, pour le cas d’un 
très grand nombre d'épreuves, est défini par la formule 


R,= M {rs} — 3 re P (YF, Usa, Ven) dQ — 
QUE, un 4e v._ 1) 
= { rnPes al) PO). (6.281) 
QU 0 2 _4r Va) 
En remplaçant r; par son expression on aboutit à la formule 
R, = À Wils, z*(s, À), tel: Po (ho) X 


eus 2 ue 
OCR: Le° M v#, Us Us.1) 
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X [I P li) IT P (ut 1) -P (ei LE, be, u)+ Po (to) X 
i—=1 i—=0 


s—1 
x IT P Gui tu- 1 ÎT P Glus, à il, U;) II er. df2, (6.282) 
i—1 : i—=0 i=0 
Introduisons les fonctions auxiliaires ax (0<k<n): 
On = Ch (yà, Ur, Us Yn-s) = À Walk, xt (k, Au), ta] X 
of, de Xp) 
k k 
x P(xx|#, br, ux): Po (ho) IP Pi) [I P Gt) x 
i=0 
.  _k Bk— 
X Polo): [EP (lui [T P(yilus, à u:) dO 
i=1 i=0 
(A=0 San): (6.283) 


Soit également 
k 
Br [T Ti. (6.284) 


= Dans ce cas la formule du risque R,, par exemple, associé à l’ins- 
tant { — n, se mettra sous la même Roue que (6.38). En reprenant 
les raisonnements du $ 1, on aboutit à une procédure analogue de Île 
définition de la stratégie optimale: soit y, — «&, et 


mu —} —+ 
Yn-Rk — Yn-Rk (Yn—h; Un-Rh; Un-k_1) — 


= Enr + J Va Cn-hers D Un-h y) ds? 
LGn_Rr Y hit 
(A0; 2; n): (6.285) 
De plus, 
Vi min Yn-h = ner (UF à). (6.286) 
 Un-REUn_p) 
Evidemment, 
un = hp (Vh-n; Unit Vn-hi). (6.287) 


La stratégie optimale est alors donnée par l'expression 
LR = Ô (Un-n —Un-). (6.288) 
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qui montre que c'est une stratégie pure consistant à choisir u,_; — 
= Un pe 
Dans le cas particulier, lorsque le processus À, se transforme en 


variable À et u, se transforme en variable u, la formule (6.283) de 
«, devient plus simple: 


OR —= | W [k, 2 (x, à), zh] P5 (4) X 


QC, L, Xp) | 
; R R—1 
X II P (gi à) ) Po(u Il P (y: [u u, à, ui) d02. (6.289) 
i=0 i—0 


Cette formule coïncide avec (6.36). 

Si la fonction u ne se ramène pas à une grandeur constante et con- 
stitue un processus markovien, on a intérêt de résoudre le problème 
de la commande duale d’un processus stable, Dans le cas contraire, 


Fig. 6.16. 


si la grandeur u est constante tout au cours du processus et si le nom- 
bre de mesures est infiniment grand, vers la fin du processus on peut 
connaître la valeur de u avec une erreur aussi petite que l'on veut 
et alors l'information sur le système devient complète. 

Soit z —+ oo. Dans un processus stable on peut imposer le choix 
d’une stratégie telle qu'elle minimise le risque moyen relatif à un 
pas, c’est-à-dire la grandeur 


p=lime JR (6.290) 


S'il existe une limite 
Rx— lim À;, (6.291) 


alors p — Ro. 

Pour illustrer la théorie exposée ci-dessus, considérons à titre 
d'exemple un système dont le schéma fonctionnel est donné par la 
figure 6.16. Soient le système B et la chaîne .G d'équations 


Ts = Us +U (6.292) 
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et 
Ve = Us T Es (6.293) 


respectivement. u, est ici un processus markovien gaussien discret 
de densité de probabilité Lo 


uÿ 
P 0 (Ho) — = exp {- Fe (6.294) 
et de densité de probabilité 4 transition 


P(hbD= exp {tal}, (6.205) 


7 20i 
Les grandeurs g, sont DEEE et P ee s'écrit: 
Pl) exp {2e}. (6.206) 
Soit, ensuite, z$ — x* — const 4 
Wa=(c*—22). (6.297) 


Puisque hs —0, y; =. Dans cet exemple 
P (yilu:, Î, ui)= P (xl, ui) — 

_— NS Dee 1 (Zi — ui H3)* » 

= (ui) ep {- DE (6.298) 
a, pour l'exemple considéré est fournie par lo générale 


(6.283). IL faut tenir compte qu'ici h$ — 0; donc P, (o); P ( | hi-4); 


P (y*| 4) dégénèrent en fonctions 8 et (6.283) peut se mettre sous 
la forme 


+ 
Oh = An (XË, Un, Yh4) = | Wa(k, zà, ax) X 


US 
Q(Ap Ds Xp) 


k 
P(x|k, ur, us) Po(uo): [[ P (ui lui) X 
ki … 
x [[ Pl, à, w)dQ. (6.299) 
i=0 
En portant ici les expressions correspondantes données par 
(6.294), (6.295) et (6.298), on a 


ax = C | es | (x*— 22)? X 
Xp, = — 00 Up—=— 00 Up, = 00 
2 = 2 2 Eee 
X exp { : _ _ {li Ho)° + (Ha — a + (Ur —Un-1) } ” 


x exp { — je dE pas ME | quo: du ... dus-dz», (6.300) 
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où € est une constante. Après le calcul l'intégrale (6.300) devient 
(6.11] : 


_ — exp {— A*KA} {ai -ÿ eik A|+&} . (6.301) 


Ici C” — const et les coefficients sont fournis par les égalités 


Ti —U; Hi ; 
——" — À;, — —= V;, —=0, liss:sR), 
y Og Ê ) | (6.302) 
TÉ— Uk _ 4» Oo — Ÿ 
5, — A1k; Cy — “0? 1 
et 
a = + 0241 
gt titl À (6.303) 
a—2+ 0, b=1+6 


Introduisons de plus les notations des vecteurs À et v de dimen- 
sion (4 +if): 


A a A) y ve 2 0), (6.304) 


et désignons par (À, À) le produit scalaire du vecteur par lui-même, 
par (À, v) le produit scalaire des vecteurs À et v et, enfin, par. A* 
le vecteur transposé de À (le vecteur À est un vecteur colonne et 4* 
un vecteur ligne). Soit, ensuite, 


PERS 


Am, À) (6.305) 


le vecteur de dimension #. L’ en {A*KA} est un produit 


scalaire de ÀA* et de KA, où K est une certaine matrice aux coeffi- 
clients k;; ne contenant pas AË. Nous n'écrirons plus ces coeïficients, 
car par la suite nous n'en aurons pas bésoin. Les coefficients e;, et 
d, sont définis par les formules 


Ô Be ne 
en = Te. Cikr ETC. (6.306) 


où C;4 sont les coefficients de la matrice triangulaire C (de Coo à Cnx) 
déterminés par les expressions 


. ÂÀ:; . : 
= TRS Cm (0<j<H). (6.307) 


Dans ces conditions nous supposons A, —1 et 


nn Ag ° ue. | 
Cu = 8 RU (6.308) 
22—0966 
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alors que A; (i = 1, ..., k) est le déterminant à à lignes et aux ro- 
lonnes 


a —=1 0 
—1 a —1 0 
| 0 —1 a 
A; = be | (6.309) 
a — (© 
— À a—1 
0 D À à 


En portant (6.307) dans la première des formules (6.306), on tuin- 
be sur 


1 À; 
RC TES PE TS JL 
DFA R 
Posons 
___ Ai __ bA—Ap-1 
QE ee (6.311) 


Il est évident que Q=i— M=du>t{. 
Si l’on tient compte de (6.311), la formule (6.310) peut s'écrire 


D (6.312) 


On montre facilement que (6.309) entraîne 


À; — A; — À; (2 —= 2, ss ges k). (6.313) 
On en tire 
{ 
Gas is (6.314) 
Etant donné que @, >> 1 et a—2+#607>-72, (6.314) amène 
QT G=1,...,8%). (6.315) 
La grandeur 
1 
fs > 0, (6.316) 


puisque b = 1 + 8 => 1; maïs g peut être soit plus grand soit plus 
petit que l'unité. … 
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Si l’on porte dans (6.301) les expressions de À; et AË conformé- 
ment à (6.302), on obtient pour # = n, par exemple, 


On = {= ur m5 a (44) +} x 


x exp {— 5 es me ns À (6.317) 


La grandeur uw, ne fait partie que ile l'expression entre crochets. 
Pour minimiser &, par rapport à uw, il faut annuler l'expressiou 
considérée. Cette condition entraîne 


n—1 
uù = xt — 2 Ein (Li — ui). (6.318) 


D’après la procédure générale de la définition d'une stratégie 
optimale, la valeur de uñ_, s'obtient si l’on calcule d'abord 7, : 


ne ee | GC dtn4 = ni + Ce | aÀ dAns. (6.319) 


Dans la dernière intégrale l'expression sous le signe somme 
4 « 
s écrit 


cf = min an = du exp À — SH 7 AiA;}. (6.320) 


Un à, 3—0 


Si l’on porte cette expression dans la formule (6.319), on établit 
après intégration que le deuxième terme de (6.319) ne dépend pas 
de À,.1 et, par conséquent, ne dépend non plus de uw, 1. C’est pour- 
quoi la valeur optimale de u*., peut s’obtenir en minimisant par 
rapport à uw, _, seulement la composante Gn 1 de l'expression de y, _4. 
Dans la formule de &;,_1, u, 1 n'intervient que dans le terme À, 
de l'expression entre crochets [cf. (6.301)]. En égalant l'expression 
entre crochets à zéro, on a 

n-2 
Uni = DE x — 2: Ci,n- { (ti — ui). (6.321) 
Ft 

Des raisonnements analogues appliqués à 4 = n — 2,n — 3,... 

conduisent à la formule générale de la stratégie optimale : 
h—1 : 
Uh = &*— 2 jh (Li — ui). (6.322) 


Elucidons le sens physique . cette formule. D'après la figure 6.16 
l'espérance mathématique de (z* — x,)? est minimale si l’on choisit 


22% 
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Ur = T* — u,. Le deuxième terme de la formule (6.322) est l’esti- 
mation de 1, basée sur la mesure des différences (x; — u;) avec i << k. 
Les coefficients e;, faisant partie de cette estimation dépendent de 
(4 — i). Les valeurs de ces coefficients sont données par la formule 
(6.310) ou (6.312). A 

Considérons la relation 


RL ELA (0<i<j<h). (6.328) 


Le sens physique de la propriété d’une stratégie optimale traduite 
par la relation (6.323) consiste dans Le fait qu'une information d'ori- 
gine plus vieille joue un rôle moins important, elle « vieillit ». Ains- 
dans un organe de commande non seuleument s'accumule une nouvelle 
information, mais encore .s’efface l'information vieillie. 


Posons 
i=k—w (6.324) 
et 
Eat = — EE fs (O<i<k, v=0, 1,...,4). (6.325) 
ES 
Recherchons les valeurs des coefficients pour un régime stable 
lim fry = fy. (6.326) 
k—>00 


Examinons au préalable la formule (6.314). Retenons que Q, — 
=>. Soit, en général, Qi +. On a alors 


1 2 a 4 a 
Q;,=a— Qi 9 (2——) 3: (6.327) 

Ainsi, tous @; vérifient la condition Qi. D'après (6.314) 
et (6.327), la relation entre Q; et Q:1 interprétée géométriquement 


est une hyperbole d’équation (—-—) , déplacée en haut de la 


grandeur a (courbe 7 de la figure 6.17). La bissectrice du premier 
quadrant, c’est-à-dire la droite Q; — 0; _1 désignée par le chiffre 2, 
coupe la courbe 7 en deux points 17, et 2. Les abscisses (ou ordon- 
nées) x; et x, de ces points sont les racines de l’équation quadratique 


XT=A—— , (6.328) 


i.e. les grandeurs 


2=+ UE (6.329) 
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II s'ensuit que l’ordonnée du point 4, est inférieure à 5 fait 


matérialisé par la figure 6.17. Constatons que la Honiee de ce 
dessin se vérifie pour tout i — 1, 2,... 


. pps a 
Imposons-nous une certaine valeur définie de Q;_, > FT: 


Sur la figure 6.17, c'est Q;_1 ou Q;_14. Les valeurs respectives 
Q;, Qi, Qiyo, etc. peuvent alors être établies graphiquement, 
à l’aide de l’« échelle » représentée sur la figure 6.17. La valeur 
Q;41 associée à Q; s’obtient si 
l’on dresse en pointillé une 
ordonnée depuis le point Q: 
jusqu'à son intersection avec 
la courbe 7. L'ordonnée du 
point d'intersection obtenu, 
que nous allons appeler pre- 
mier point de l’« échelle », est 
égale à @;4,. Si nous voulons 
connaître Q;12,la même valeur 
doit être portée en abscisses. 
Pourtant, le report de la va- 
leur @;:, sur l’axe des abscis- 
ses peut être remplacé par le 
tracé d'une droite horizontale 
(munie d’une flèche) allant du 
premier point de l’«échelle » à 
la bissectrice, c’est-à-dire à la 
ligne 2. Le point d’intersection 
obtenu est le deuxième point 
de l’« échelle ». On voit aisément que la valeur @;}2 s'obtient si 
l’on dresse une verticale depuis le deuxième point de l’« échelle » 
jusqu’à son intersection avec la courbe 7. Une procédure analogue 
permet de trouver Q;13, Q;+,, etc. Comme le montre la figure 6.17, 
pour à —+ oo la valeur @; converge vers Q+ égale à la valeur maximale 
de x. Aïnsi, (6.329) conduit à 


Fig. 6.17. 


À fa 
Qu= lim Qi + r—1> 5 >. (6.330) 
Ensuite, pour k — co, la grandeur 
{ 1 
QD O0 0e (6.331) 
Par conséquent. 
Î À | 
PR hp 1 jee 
ï tb) 


349 ACCUMULATION ACTIVE DE L'INFORMATION [CH. V1 


Ensuite 
fv+s li AB 4 { OCT 
os “TT — AR e { . 
v Fo Ah et On. Oe 4 M Ro) 


Si conformément à (6.325) on substitue f,, à e;, pour passer à la 
limite avec À — co, l'expression (6.322) est remplacée par une suite 
infinie dans laquelle u, est une valeur courante et x _, et u _, sont des 
valeurs mesurées v pas auparavant : 


Up = Z*— 2 Îv (tv —Uu). (6.334) 
V—= 


D'après (6.333) les poids f,, avec lesquels les différences x_, — 
— u_, font partie de la somme (6.334), diminuent à mesure que v 
croît suivant une progression géométrique. 

La formule (6.334) peut être mise sous une forme plus simple. 
(6.334) et (6.333) entraînent 


U_y = 2*— 21 Jos (Ty — uv) = 2 —Qo 2 fv(&-v— uv). (6.335) 
V= V= 
Mais, d’après (6.334), on peut écrire: 


pal fo (ty — Us) = 2*—Uug— à (tr — Us). : (6.336) 


En portant (6.336) dans (6.335) on obtient l'égalité 
Qoolg = (Qc — 1) 2Ÿ + u4 — fi (rs — us). (6.337) 
On tire de (6.333) que 


On tire de (6.337) 


=. [ (Qs— 1) z* + (4 +) 2 | (6.338) 


La figure 6.18 représente un schéma fonctionnel qui correspond 
à la formule (6.338). Dans ce schéma, t est une chaîne de retard d’un 
pas. De ce fait, lorsque à l'entrée de la chaîne on a w,, à la sortie on 
u w _,. Les autres circuits du schéma assument l’amplification et l’un 
d’entre eux la sommation. Le schéma d’un organe de commande opti- 
mal À, prévu seulement pour un régime stable, est muni d'une réac- 
tion positive interne réalisée par la chaîne d'amplification 1 + 
+ fQ% et la chaîne de retard. 

Soit, pe exemple, ®, — 1. Alors b = 1 + Ÿ a —= 2 + 
+ 8 — 3. La valeur de Q4 calculée d’après L'été (6. 390) est 
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égale à 2,615. Il vient 


1 
M ns 
4 (2 2,615 | je 
1,62 | 
hi = a 7 2,645 = 0,616, 
h=-f = DU = 0,285, ete. 


La série (6.334) se met donc sous la forme 
ug= 2* — 0,618 (x_3 — us) — 0,235 (x-2 — u_2) — . 
Passons à la mesure continue. 
Soit le temps T — nAt fixé et découpé en nr intervalles égaux 
d'une durée At. Supposons d’abord que les mesures soient prises aux 


Fig. 6.18. 


extrémités des intervalles, alors que At intervient dans la valeur de 
a? de la façon suivante 


Tea . (6.339) 


La suite des variables £g, donne à la limite pour At 0 un bruit 
blanc de densité spectrale $,. Soit, ensuite, la variance 0° de la den- 
sité de probabilité de transition dépendant de At suivant la loi 


of — 0? At, (6.340) 


avec 6% — const. La formule (6.295) se-met alors sous la forme d’une 
formule de la densité de probabilité d’un processus markovien con- 
tinu normal 


À 
P (lo + Au, to + At} bo, = EXP {— Sr 9 (6.341) 


Lo étant la valeur de u pour £=t, et Ap l'accroissement de u en 
un temps At. Dans ce cas, lorsque Ai —+ 0, 


ou» 0, 0— = +0. (6.342) 
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Comme pour de petites valeurs de Af et 4, la grandeur Q, æ 
æ {+ 0, on obtient d'après (6.332) 


4 Can 
LE, —  , ——— = — At LAt, (6.343 
0 4 (1 À )—1 1 VS ( ) 
ôf 1 +0: 


IR 


avec 
C2 
LT à 6.344 
L'expression (6.334) devient 
= sa LAt _ …L | 
Up = X 2 PE (ty — us). (6.345) 


En désignant les valeurs courantes par u(t) et æ(t), on a à la 
limite pour Af — 0: 

u (t)=2*—L À exp{—Lr}[r(t—7t)—u(t—7)] dr. (6.346) 
.. += L- 

Ainsi pour obtenir une loi de commande optimale il convient 
d'appliquer la différence zx — u à l’entrée d’une chaîne avec inertie de 
constante de temps £L”!. La grandeur de sortie de cette chaîne est 
définie par le deuxième terme de l'expression (6.346). 


$ 6. Schémas fonctionnels des organes 
de commande optimaux 


La comparaison des systèmes automatiques en boucle ouverte et 
en boucle fermée à objets commandés avec inertie présente un inté- 
rêt certain. Pour faire cette comparaison, examinons un cas particu- 
lier simple, celui du système en boucle fermée de la figure 6.19. 


Lu 
D 


Fig. 6.19. 


oit la perturbation z, assujettie à s et au vecteur des paramètres pi: 


2: —2: (5, L), (6.347) 


alors que l'équation de l’objet discret avec inertie peut s'écrire 


ze Fos, Us) = F(u, Us). (6.348) 
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Nous considérons, en outre, que les conditions initiales sont con- 
nueset qu'elles font partie de l'expression (6.348) sous la forme de pa- 
ramètres. Si ces conditions ne sont pas connues, on peut les associer 
au vecteur u. La fonction de pertes élémentaire adoptée (en considé- 
rant que æ* est un paramètre connu) est de La forme 


Wa Wifs, x, 25] = W,ls, F(s, L, Us) a*] = Wils, L, Us]. (6.349) 


La caractéristique de la chaîne sans inertie Æ faisant partie de la 
chaîne de réaction est définie par l'expression 


Ys — Ys (Rs Te) (6.350) 
Soient P (u) les densités de probabilité a priori du vecteur 
et P (h.) des variables aléatoires indépendantes A, (s = 0, 1,2, ... 


..., n). Supposons que u et , sont indépendants. La tâche consiste 
à rechercher la stratégie optimale de l'organe À 


Ps (us) = r', (Us [us-4, Yu). (6.351) 
Le risque élémentaire R, s'exprime par la formule 


R=M{W}= | Wish u)-P(x 
QG, 2, 00) 
8—1 " $ 
X JE PGuili u, wi). [[ T:d@. (6.352) 
ä=0 i=0 
Puisque avec les.u; données l'information sur y; n'augmente pas si 


Es : — ; 25 S , 
l’on donne en outre y;_1, l'influence de cette dernière peut ne pas 
être prise en considération. La fonction «&, s'écrit alors 


(647 (ua, ee | Wè [#, u, ur]: P (hi) x 


Qu) 
kR—1 
XI] Ptili un w)dQ. (6.353) 
i=0 
Si l'on pose Yh—=an et 
Van (lack Ynna)= nat À vins dO, (6.354 
| Q(Yn _5) 


la définition de la valeur optimale uÿ se ramène à la minimisation 
de y, par rapport à u,, ce que nous avons déjà montré à plus d’une 
reprise. 
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Peut-on remplacer le système en boucle fermée de la figure 6.19 
par un système quelconque en boucle ouverte équivalent sans chaî- 
nes deréaction mais muni d’un circuit de mesure de la perturbation z,? 


Dans un schéma équivalent les valeurs de w, doivent être les mê- 
mes que dans un schéma réel; c’est pourquoi dans les deux cas le 


Fig. 6.20. 


comportement du système B doit être parfaitement identique. Le 
schéma de la figure 6.19 se transforme aisément en utilisant la for- 
mule déduite de (6.350) et (6.348) : 


Us — Ys LRs, xs] = Us (Rs, F (2e, Us)]. (6.395) 


En eftet, si l’opérateur F, de l’objet B est donné, on peut construi- 
re son modèle artificiel B° ayant le même opérateur et appliquer z; 


1" 
CE 


En 


Us : lt LS 


Fig. 6.21. 


æet uw, à l’entrée du modèle (fig. 6.20). Supposons que les conditions 
initiales du modèle B° et du système B coïncident. On obtient alors 
à la sortie du modèle la grandeur x; identique à la grandeur de sortie 
réelle du système. 

Dans le cas général, le schéma 6.20 n’est pourtant pas en boucle 
ouverte, car il comporte une réaction locale qui va de la sortie de l’or- 
gane À vers son entrée à travers Les chaînes B° et Æ. Le problème 
consiste ainsi à établir si l’on peut concevoir un système en boucle 
ouverte sans aucune réaction extérieure, comme celui représenté sur 
Ja figure 6.21, qui serait équivalent au système optimal donné par la 
figure 6.19? Le bloc £ du schéma de la figure 6.21 peut être égale- 
ment un système dynamique, c’est-à-dire sa sortie w, peut dépendre 
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non seulement des valeurs courantes de À, et z, mais encore de la 
« préhistoire » des grandeurs d'entrée. Si le système £' est sans 
inertie par rapport à =,, alors 


w, = (hs, 25) = w, (is 8, U). (6.356) 


Le schéma de la figure 6.21 présente également un intérêt parti- 
culier. Cherchons pour ce schéma la stratégie optimale de l’organe 
de commande À sous la forme 


Pa (us) = Te (uel Us-1 Wei). (6.357) 


Explicitons le sens des vecteurs qui se trouvent à droite de la 
verticale de l'expression (6.357). La valeur optimale lors de la répar- 
tition de la grandeur w, doit dépendre de toutes les valeurs &,, w,, ... 


…, Ws-s, C'est-à-dire du vecteur D, En effet, ces valeurs 


> 
permettent de calculer z, et avec elle le vecteur inconnu des para- 


mètres u. Le système Æ peut être considéré comme un circuit apé- 
riodique de mesure de z, donnant lieu également au bruit k.. En 
général, plus les valeurs de w; (i = 0, 1,..., s — 1) observées dans 
le passé sont nombreuses, plus la définition de la valeur du vecteur 


inconnu des paramètres u est précise. 


Tout autre est le sens du vecteur u,_1 de l'expression (6.357). 
Pour assurer une commande correcte du système B il faut en tenir 
compte lors du calcul de z.,. Etant donné que cet objet est inertiel, 
à l'instant { — s se manifestent les post-actions de toutes Les actions 
Ugs Ur « - +» Us_1 appliquées au système dans le passé. C'est pour- 
quoi l’action de commande , doit être définie compte tenu de l’état 
du système qui porte l'empreinte de toute la « préhistoire » » de ses 


entrées fournies par la chaîne d'action. Ainsi, le vecteur u._ ; doit 
intervenir dans u.. 
Cherchons la stratégie T', optimale dans le sens de la minimisation 
du risque 
ñn n 
R=M{W)\=M(DW.)=Y Rs. (6.358) 
s—0 s—0 
n est ici fixé comme auparavant. 
Trouvons d’abord le risque élémentaire conditionnel. Considé- 
rant que 2* est imposé et que c'est un paramètre, on peut ne pas 
l'écrire sous une forme explicite. On a 


r= M{W,| uw, = | Wls, Fo Go us)l-P (u, ul ws-s) dQ. 


Qu, UQ 


(6.359) 
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La densité de probabilité conjointe de pu et u, est donnée par 
l'expression 


P (a, uejwes)= P (uw): P (lu, 54) = 
= P(plus). ir. (uilu;4, W;4). (6.360) 


Cette dernière transformation se vérifie du fait que u « ne dépend 
que de D 1 (cf. fig. 6. 21) et l'information sur n ne change pas la 


densité de probabilité P (u, lo, 4). De plus, ? (u, Lo, +) est évidem- 
ment le produit des fonctions f';. 
Ensuite, la densité de probabilité conjointe 


P(wss, WP (ws4ln)-P(n)= P(U|w4)-P (w:), (6.361) 


P (ss) étant la densité de probabilité inconditionnelle w,_,. C'est 
pourquoi la densité de probabilité a posteriori 


PP Go.) = POP, (6.362) 
P (ws_1) 


En portant la formule de Bayes (6.362) dans (6.360) et en 
tenant compte du fait que 


Fe e: 8— 1 
P(wsal)= [l P (li, h), (6.363) 
14—= 
on aboutit à l'expression 


P (u). T2 it, p) 
+ i=0 
PU, us] We) = —— ———. Il Ti. (6.364) 
P (ws_1) i=0 
(‘ette expression peut être portée dans (6.359). 
Lorsque le nombre d'expériences est très grand, d’après (6.359) 
et (6.364) le risque élémentaire s'exprime par la formule 


hi rs- P (105.4) dQ = 


(0, _) 
8—1 
= À Wi(s, pu, u)-P(uy [[ P(wili, u) x 
QE, U,, &,_4) = 
A 
* Il T'; (u: re wi) dG. (6.365) 
i—=0 
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Maintenant la stratégie optimale peut être déterminée de la 
même façon que dans la théorie de la commande duale. Introduisons 
la fonction auxiliaire 


R—1 
an (Un, Wn-1) = | Wa (k, d, w)-P Qu) x [[ P(wili, 1) dQ. (6.366) 
Qu) i=0 


Les mêmes raisonnements que ceux de la théorie de la commande 
duale conduisent dans ce cas à un résultat analogue. Il se trouve que 
la stratégie optimale T#_, est une stratégie pure. Pour l'obtenir, il 
faut composer la fonction 


Va=h = Œn-k + | Vn-n+1 46, (6.367) 
AW _p) 
de plus Yn—=@n et 
v— min Y =": (ui). (6.368) 
U; EAU: D 


En minimisant y,-, par rapport à w,.,, on obtient la commande 
optimale 


un = ue (Uncno1s Winch). (6.369) 


.. La commande optimale u%_, dépend de w, -x 1 car l'observation 
de toutes les valeurs précédentes de w; (i — 0, 1, ..., n —k — 1) 
permet d'évaluer le vecteur des paramètres un. L’ignorance de l’une 
quelconque des valeurs de w, (i <[ n — k) observées antérieurement 


diminuerait l'information disponible sur u et, par conséquent, ren- 
forcerait l’indétermination de l'estimation des paramètres du systè- 
me, Ce qui peut altérer la commande. Par ailleurs, u?-: dépend de 


U, _L_1 du fait que toutes les commandes antérieures u, (i — 0, 
4,..., n — k — 1) laissent leurs « traces » sous la forme de varia- 
tion de l'état de l’objet B, et donc il faut en tenir compte pour 
définir la commande optimale à l'instant { = n — k. 

Ainsi, il se trouve que formellement les opérations de définition 
de ta stratégie optimale du schéma en boucle fermée 6.19 et du sché- 
ma en boucle ouverte 6.21 sont quasi identiques. 

Mais si l’on regarde ces formules de plus près, on voit que la dif- 
férence entre elles est bien nette. En effet, comparons les formules 
de «4 (6.353) et (6.366) pour les systèmes en boucle fermée et en boucle 
ouverte respectivement. Nous voyons que dans (6.353), la dépendan- 


ce de Le est en principe plus complexe que dans (6.366). Les coordon- 
nées de ce vecteur font partie non seulement du facteur W, (k, L, 


LU) de l’expression sous le signe somme de (6.353), mais aussi des 
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facteurs P (y;li, u, u;). Cette circonstance reflète le caractère varié 
de l'influence exercée par la commande w, sur le risque élémentaire 
R, avec s >> k. D'une part, à l'instant £ — s, l’action w, laisse une 
« trace » dans le système dynamique de l’objet. Pour cette raison W, 


dépend du vecteur U, tout entier et non du seul scalaïre u,. De plus, 


la probabilité a posteriori P,(u) varie également suivant que la 
commande uw ait été bonne ou mauvaise dans le sens d'amélioration 


des données du système. C'est pourquoi les facteurs P (y;,li, u, u;} 
font partie de l'expression (6.353). Ce deuxième canal d'influence 
de u, sur À, est inexistant dans le système en boucle ouverte. Dans 
la formule (6.366) de &, d'un système en boucle ouverte, les facteurs 


P (w;|i, p) sont indépendants de w;. 

Toutefois, il existe des cas où le système 6.19 devient réductible. 
Cela est possible lorsque La formule (6.353) peut être mise sous une 
forme analogue à celle de (6.366). Si l’on peut trouver une fonction 


1; = wi (ÿi, à, U;) (6.370) 
telle qu’elle vérifie l'égalité 
Pyli u, w)=P(wili, p) (6.371) 


(6.353) se ramène alors à (6.366) et le système en boucle fermée de- 
vient réductible. Il faut en outre que soit vérifiée la condition 


[ P(wili, u)d8=1, (6.372) 


Q(w;) 


car l'expression sous le signe somme de (6.372) est une densité de 
probabilité de w,. 

Un exemple de système réductible à objet avec inertie a été 
examiné dans ce qui précède [cf. équation (6.222) et la suite]. La 


—+ = 
formule (6.259) montre que dans ce système la mesure de x; et uw; 
est équivalente à la mesure de u avec une erreur. Pourtant, la classe 
des systèmes réductibles est très étroite par rapport à celles des sys- 
tèmes irréductibles, pour lesquels les conditions de types (6.370) 
et (6.371) ne sont pas valables. 

L'existence des systèmes irréductibles est une illustration de plus 
du fait que, dans un certain sens, la notion de chaîne de réaction 
a une valeur absolue. Les processus dont les systèmes asservis sont 
le siège sont plus riches de contenu que les processus se déroulant 
dans des systèmes en boucle ouverte ; les systèmes à réaction se carac- 
térisent, entre autres, par des traits inéxistants dans Les systèmes 
en boucle ouverte. 
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Nous étudions dans ce qui suit certains problèmes relatifs à la 
construction des schémas fonctionnels des organes de commande fai- 
sant partie des systèmes irréductibles. Considérons, à titre d’illus- 
tration, l’exemple très simple d’un système irréductible au schéma 
fonctionnel 6.22. Ce schéma ne diffère du schéma apparenté 6.7, 


Fig. 6.22. 


OÙ TZ, = uu,, que par le point d'application d’un bruit purement aléa- 
toire. Au lieu des variables indépendantes hk, dans la chaîne de réac- 
tion (fig. 6.6), le schéma 6.22 comporte des variables indépendantes 
Es à l’intérieur du système B. Supposons que ces variables soient 
gaussiennes de valeur moyenne et de densité de Ro identique 


P (Es) = q (Ës) — VE exp { — F4 SE). (6.373) 


Le schéma fonctionnel de l’objet B comprend un multiplieur MW 
et un additionneur Z. Par conséquent, 


Ts = Ms + se (6.374) 


Le « gain » u du multiplieur M dont la grandeur de sortie est égale 
à uu, est une variable munie d’une loi normale et à densité de pro- 
babilité a priori 


_ __ 1 __ (U—Uo)? 
P()= 7 XP { er (6.375) 
La fonction de pertes élémentaire s'écrit 
W,—(2i—x:)", (6.376) 


où x$ est la grandeur constante imposée, généralement différente du 
ZÉTO. 

Si le bruit aléatoire Ë, n'existait pas (£, — 0), une seule mesure 
des grandeurs uw, et x, suffirait pour connaître la valeur de pm. Donc 
dans ce cas la définition de la caractéristique du système B consti- 
tuerait un problème trivial. D'autre part, si la grandeur pu est connue 
et si 6, Æ 0, la caractéristique du système B subit d’un pas à l’autre 
des variations aléatoires. Toutefois, l'accumulation de l'information 
sur la caractéristique du système est en principe impossible du fait 
que, pour i  j, certaines valeurs de Ë; et £; sont indépendantes. 
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Aussi, l'étude des caractéristiques du système n’a-t-elle aucun sens. 
Le problème ne devient réel que si la grandeur u est inconnue et, de 
plus, si £, = 0. L'obtention d'une mesure précise de u en un nombre 
fini de pas est alors impossible. En accumulant l'information sur 
la mesure des u; et x; on peut construire à chaque nouveau pas de 
nouvelles densités de probabilité a posteriori P;,; (u) qui permettent 
d'obtenir des estimations de plus en plus précises de u en contri- 
buant ainsi à une organisation toujours meilleure de la commande. 

Dans les chapitres précédents nous n'avons pas examiné les 
problèmes sur les systèmes à bruit de fond £.. Or, ce sont des problè- 
mes qui autorisent l’application sans modification, tant soit peu tan- 
gible, de la théorie de la commande duâlé. Déduisons d’abord la for- 
mule du risque élémentaire conditionnel r,. La grandeur x* étant 
donnée, il n’est pas de rigueur de l'écrire sous une forme explicite. 
Le schéma de la figure 6.22 et la formule (6.376) donnent 


rs— M {Ws | Bo, Us) = 
= | (ai— 2) Ps(aslus)-l(us| te Us) dQ. (6.377) 


OX u) 


Ici P,(x,lu.) est la densité de probabilité a posteriori de x;, 
u, étant fixée. Cette fonction caractérise l’information sur le systè- 
me, disponible avant le s-ième pas. De même que dans ce qui précè- 
de, l’expression FL, (u,1xs_1, u.,_1) est utilisée pour désigner une stra- 
tégie aléatoire de l'organe de commande À 

La fonction P,(x,lu.) est associée à la densité de probabilité 
a posteriori P, (u) de la variable u par la relation évidente 


P. (xs lus) = Î P(xlu, u) P.(u) dQ, (6.378) 
Qu) 
où P (x,lu, u.) est la densité de probabilité conditionnelle de x,, 


u et u, étant fixées, et Q (u) est le domaine des valeurs possibles de nu. 
En vertu de (6. 374) on à 


Ca — LS LEE UU se (6.379) 
Par conséquent, d’après (6. A 
— DS — lus)? \ 3 38 
P(zslu Us) — VE ti {-° "20? 1° (6.3 0) 


Tel ést ainsi le premier sr de l’expression sous le signe somme 
de (6.378). 

Cherchons maintenant à l’aide de’la formule de Bayes lexpres- 
sion P,(u) qui est le deuxième facteur de (6.378) : 


P(u)= P (ul us es) = et tetlW) Po) (6.381) 
P (us-1, Zs-1) 
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Considérons l'expression 


—+ > 
P (u;, Li | U, Ui-_4, Li-1) _ 
+ ae ni sd 
— P (ti [U, Li, Us, Li-1) P (ui | L, Uji, Lim) — 


=P(cilu, u)-Ti(uiluis, œ4). (6.382) 


> — 
Nous avons rejeté u;_,, x;_, du premier facteur du second mem- 
bre puisque la fixation de U et de u; définit complètement la densité 


de probabilité conditionnelle de x; et l’addition de u;,, et Ti ne 
fournit aucune information nouvelle du fait que le système B est 
sans mémoire. Le deuxième facteur est la stratégie l'; de l'organe de 


commande À qui n’est assujetti qu'aux u, _1 et x; : 1. C'est pourquoi 
on peut rejeter u à droite du trait vertical de ce facteur. 
(6.382) entraîne 


8s—1 s—1 


P (ue 24/11)= [ P(ilu, wi). [Te (6.383) 
Par ailleurs, le risque élémentaire moyen 


na — ES 
R: — \ TP (Us Ls-1) dQ. 
> — 
SKU 45 Kg 4) 


En portant (6.383) dans (6.381), ensuite (6.381) et (6.580) 
dans (6.378), puis (6.378) dans (6.377) et (6.377) dans l'expression de 
R,, on obtient, compte tenu de (6.375), à un coefficient de proportion- 
nalité près, 


R; = | (x — x)? exp {- Te ÿ' (ti —pu;) — 


i—0 


—} 
AH, u,, * ) 


to). fl T,dQ. (6.384) 


201, 
i==0 


Dans le cas considéré, la méthode générale de recherche est la 
même que dans ceux examinés plus haut. 
Introduisons la fonction 
OO Lee) 
— — 
Œs (Us, Ts-1» Us-1) = | | (x — xs) X 


— 90 — 00 


X exp 2. > (ti — pui) — KE) dx, du. (6.385) 


23—0966 
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Définissons ensuite ux en minimisant @, par rapport à u,, puis 
trouvons v,_,. En minimisant Ÿ,_, par rapport à w,_;, on trouve 
+ 
Un_1r CLC. 
La fonction «&, peut être établie sous sa forme finie. Après l’in- 
tégration de (6.385) à un coefficient de proportionnalité près on a 


Ga = XP {GE 2 : > 4} Lob+(iP+ FE (t+ = je 


T1 


—Dueg et mt] x — = exp { n Le (6.386) 


ou 
s—1 
Ys-1 — 50% + TiUÿ + 20% ? 
| (6.387) 
FER A D tr | 


La fonction &, est minimisée lorsque pour s — #7 dans l’expres- 
sion entre crochets de (6.386).1a dérivée par rapport à uw, s’annule: 


29 1 q 
He 2 (14 = EE) — 276$ et 0. (6.388) 
On en déduit que 
DR — (6.389) 
a 


insi, meilleure valeur de u* es éfinie par l'expression 
Ainsi, la meilleure valeur de ur est définie par l’expressio 


n'un—z#, où u’ est la «meilleure» estimation de la grandeur u. 
(6.389) implique 


+ 2 
p' = — | (+=) - ls ne 
un 


2n1 Tn-1 2qn -1 Tn1 
n—i1 

0 

20% > Ti i+ 2 2 
1 i—0 

= —— 5 — + (6390) 
Ho À 1 a 

ol 'oè > a 20? > it 20? 

i=0 i—=0 


Dans le cas d'un grand nombre d'essais, lorsque les sommes 
Sd æiu; et D, u? deviennent grandes, cette estimation s'approche de Ja 
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grandeur 


n—1 
D TU; 
pr —. (6.391) 
DE 
i=Ù 
Si la relation x; = pu; était vérifiée, (6.391) conduirait à l’éga- 
lité n° = pu. 
La grandeur y, _, est définie par l'expression 


Sa \ LÉ dt. (6.392) 


Le résultat de l'intégration ne se traduit pas par une formule 
finie. Pourtant, la chaîne des intégrations et des minimisations peut 
se faire en ne retenant que les fonc- | 
tions de deux variables, de même lé 


que dans l’exemple apparenté que © : 
nous avons examiné dans ce = M au | gras 
précède Îef. les équations (6.141) di Z 

et (6.145)]. Comme le. montre 2 
(6.387), les variables correspondan- ,4s 


tes sont les grandeurs 


s— 1 s—1 
2 
Let ZT > dili, Mi Ÿ ui. 
i=0 


i—0 
(6.393) 


De même que dans l'exemple Fig. 6.23. 
donné plus haut, dans le cas consi- 
déré la commande optimale u* est associée aux valeurs L,._; et M, _.. 
Il est utile également d'’insister sur le fait que u$ dépend en général 
du numéro du pas ou, plus précisément, du nombre de pas (n — 5) 
à faire jusqu’à la fin du processus. Ainsi 


US$ = US [Lu Min, (n—5)]. (6.394) 


Il existe également une autre méthode pour justifier le choix de 
L,_1et M,_1en tant que caractéristiques suffisantes ou d’autres gran- 
deurs qui leur sont associées. Examinons le système commandé B 
de la figure 6.23,a. Soit &, toujours le processus strictement aléatoire 
caractérisé par la densité de probabilité g (£.) définie par l'équation 
(6.373). Supposons que la densité de probabilité a posteriori P,_1 (u) 
de la grandeur u est définie par l'expression 


1 —my_1)2 
PE (ui) — eu Va EXP { — (u Te a } : (6.395) 


‘)r2 
20% _ 


23* 
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m1 et O1 étant respectivement la valeur moyenne et l’écart-type. 
Supposons encore que le système subit à l’entrée une certaine action 
u, qui entraîne à la sortie une certaine réponse x,. Une question se 
pose : quelle est la nouvelle densité a posteriori P, (1) trouvée comp- 
te tenu de la nouvelle observation effectuée au s-ième pas? Il est 
évident que P,{(u) doit dépendre des valeurs ©,1, M,-1 caractéri- 
sant l’ancienne densité P,_, (u) qui dans ce cas joue le rôle d’une 
densité a priori, ainsi que des valeurs de u, et x,: 


Patu)= Psu, Css, Mo, Us, ds) = PsUlus, Ts, Os, Ms). (6.396) 


La forme explicite de l’expression de P, (u) se trouve facilement. 
En représentant P (x,, u [u,) sous la forme d” un produit, on obtient 
sans difficulté la formule de Bayes 

Palp)= Pur, u)= 28100) Ps [he He) (6.397) 
P (ts) 
P (x,;) étant une certaine grandeur indépendante de L et qui de ce 
fait n'intervient pas en principe dans la formule (6.397), on peut la 
poser égale à la constante C,. La grandeur de cette constante se calcu- 
le d’après la condition 


À P.(u) du 1. (6.398) 


En remplaçant P,_,(u) par son expression tirée de (6.395) 
et P(xslu, u,).par son expression tirée de (6.380), on a 


P,(u) = = Caexp {— ER bus 1: (6.399) 


2 à 
20% 26? _1 


où C» est une constante. Cette Re se met facilement sous la 
forme 


P.(p)=Csexp À Ne L. (6.400) 


2 
202 


où C; est une nouvelle constante, alors que m, et 0. sont définies 
par les expressions 


+ (Æ | 
me Ga, | 
£ | (6.401) 


ne 
i+() ut 
D'après les conditions de normalisation il est clair que C:— 
Î 


HV 
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Les formules (6.400) et (6.401) permettent de tirer plusieurs con- 
clusions utiles. Premièrement, il se trouve que la répartition a poste- 
riori caractérisée par la formule de P,{u) est également normale. 
On en déduit que lorsque la densité de probabilité a priori P, (u) 
est imposée sous la forme d’une loi normale (6.375), les densités de 
probabilité suivantes P, (u), puis P: (u), P: (u), etc., sont également 
décrites par des lois normales. Par conséquent, deux nombres seule- 
ment suffisent pour caractériser une densité de probabilité a posterio- 
ri quelconque, celui de la valeur moyenne m, et de la variance 065$. 
Ensuite, l’expression (6.401) montre que la nouvelle moyenne m, 
s'établit à partir de l’ancienne valeur m,_, par transformation li- 
néaire dont font partie, en plus de ©, _,, les fonctions des valeurs de 
u, et x; obtenues au s-ième pas: u?et u,x.. Enfin, la nouvelle va- 
riance 6? est inférieure à la variance ancienne 6°, et, de plus, 0% 
dépend de la valeur u? (mais non pas de la valeur x.). 

Le schéma de la figure 6.23,a n’est pas le seul à jouir de la pro- 
priété de conserver la loi normale.Considérons, parexemple, un autre 
schéma du système commandé B (cf. fig. 6.23,b). Ici le « bruit de 
fond » Ë, n'existe pas; pourtant, la mesure de la grandeur de sortie 
x, S’eftectue avec une erreur »,. Pour cette raison on introduit dans 
l'organe de commande À la grandeur 


Ve = Ls Th, = nus +he. (6.402) 


Soit P,_1 (1) la densité de probabilité a posteriori de u après le 
(s — 4)-ième pas. Cherchons la densité de probabilité a posteriori 
suivante P, (u) une fois que les valeurs de w, et y, seront fixées au 
s-ième pas. Il est clair que l'égalité analogue à (6.397) est vraie: 


Pau) Pty lu, u, 
P(H)= Plus ue “te lR Ho (6.403) 


Supposons que P,_;(u) soit décrite par la loi normale (6.395). 
D'après la formule (6.402) et la loi de répartition (6.120) de k, 
on à 

P(ys[u, ue) = vxp [Bebe (6.404) 
On V2n | f 


20? 
En portant (6.395) et (6.404) dans (6.403), on amène 


(Ys— Mu)” — M1)? 
Ps(u) = C2exp { TT DE — su —- 


= (LL — ms)? 
— Csexp {— 24 +}: (6.405) 


où C2 et C, sont des constantes. L'expression (6.405) ne se distin- 
gue de (6.599) que par le fait que x; y est remplacée par y, et 
C4 par 0». C'est pourquoi les formules obtenues de m, et ©, sont 
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analogues à (6.401) : 


Ms = Ts . 5 | 

2 

R (rx) (6.406) 
oc? — 8—1 


== LS NT : 
À + (== u? 
À tout instant { —s la densité de probabilité disponible 
P 31 (u) peut être considérée comme une densité a priori. Par con- 
séquent, pour ? — s la commande optimale u* doit être choisie en 
fonction des paramètres m,_, et o6,_1 de la fonction P,_; (x), ainsi 
qu'en fonction du nombre de pas à faire jusqu’à la fin du processus. 
Ce dernier nombre est égal à (nr — s). De plus, u* dépend de x*. Ainsi, 
Ug — Us [T$, Most, Os (n—s)]. (6.407) 


En partant des formules (6.401) et (6.407) on peut construire le 
schéma fonctionnel d’un organe de commande À pour le système 
représenté sur la figure 6.23,a. 

Lors du passage de P,_, (u) à P, (1) le caractère de la loi de répar- 
tition peut se conserver même si la répartition est régie par d'autres 
lois que la loi normale (cf. [5.32, 5.33, 6.161). Soit, dans un cas plus 
général, la densité de probabilité P ,_, du vecteur u qui est une fonc- 
tion des paramètres @;, ,_1, . . ., @y, $_1 réunis en un vecteur 4,1: 


Ps-1 (u) = Pt (u, ii, g4, <-., &,, s1) + Ps (u, Gs-1). (6.408) 


Supposons ensuite que l'observation des valeurs de w, et y, à la 
sortie de l’organe de commande À et à son entrée liée à la sortie du 
système commandé permet d’obtenir au lieu du vecteur &,_;, un nou- 


veau vecteur a. Ce vecteur est fourni par une transformation ® de 
l’ancien vecteur «,_, et dépend certainement aussi de uw, et yse 


as = D (Gs-1, Uss Us). (6.409) 


Les expressions (6.406) sont un cas particulier de cette relation. 


Le vecteur a, peut s'appeler vecteur d'information puisqu'il 
résume toute l'information a posteriori sur les caractéristiques du 


système commandé (mais non pas sur son état). La fonction P, (u) 
dépend de ce vecteur 


P,(p)= Ps (H, à). (6.410) 


En considérant que P._1 (u) est une densité de probabilité a priori 
avant le s-ième pas, on voit sans peine que la commande optimale u* 
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est la fonction du vecteur &._:, et dans le cas d'un système avec iner- 
tie, elle est également la fonction des coordonnées de ce vecteur, 


c'est-à-dire du vecteur x,.1. (Si la valeur exacte de x,_, ne peut être 
mesurée, son estimation est donnée par les vecteurs Ye et 4.) 
En outre, u* dépend de z* et du nombre de pas (7 — s) à faire 
jusqu’à la fin du processus. Ainsi, dans le cas particulier de À, — 
= Oet x, — y, l'expression vraie est 


uÿ = u* [as-1, Er de. (n—s)]. (6.411) 


Les composantes des vecteurs a, ._1 et x,_, qui traduisent l’infor- 
mation sur les caractéristiques et l’état du système peuvent être 
appelées dans ce cas coordonnées suffisantes. L'application des coor- 
données suffisantes était recommandée pour résoudre les problèmes 


pue = mn tee mens 


statistiques de commande optimale qui ne se rapportent pas au do- 
maine de la théorie de la commande duale exposée dans [5.33, 5.40 
et 6.10]. Les méthodes exposées dans [6.16] relatives aux coordon- 
nées suffisantes sont appliquées pour résoudre un exemple décrit 
ci-dessous de la théorie de commande duale. 

La grandeur aléatoire uw et la suite des grandeurs indépendantes 
E, sont régies de même que dans ce qui précède par les lois de répar- 
tition (6.375) et (6.373) respectivement (fig. 6.24). Le sous-bloc 
B'est un intégrateur discret à grandeur d’entrée uu, + &6,, l'équa- 
tion du système B tout entier s’écrivant 


Tati — Ts = Ms + Ë se (6.412) 


Si la densité de probabilité a priori P (u)de u est régie par une loi 
normale de moyenne m, et de variance of, la densité a posteriori 
obtenue après la mesure des valeurs de u,, x, et «+, est régie égale- 
ment par une loi normale de moyenne m,:, et de variance 6541. 
On le montre facilement de la même manière que dans les exemples 
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exposés plus haut. En effet, si l’on considère P, (1) comme une den- 
sité de probabilité « a priori » de u, on vérifie alors l'égalité 
Ph, zsulzs, us)= Peu): P (asus, dus) = 
—= P (Tsa1 | Us, Ts) , P (Hu li: Ls+445 Us). (6.413) 
P (xsu1l%s, Us) étant indépendante de u, remplaçons cette den- 
sité de probabilité par (C;)*. Il vient 
P; (u) P (Zs+1 | Tes Us: L) — 


Psn(u) = P(ulX%s, rs, Us) = P'(tsutltss Us) 
— C, «P, (u) - P (Ts41 [Te LL, Us). (6.414) 


D'après (6.412) et (6.373) 


( S+1 TS s)? 
P (ts lu, Ts, Us) — PTE exp 5 De une . (6.415) 


En portant cette expression dans (6.414) avec la formule de 
Ps (4) : 


EE 1 , (u— ms) 
Ps(u) — Von. V2x EXP { a | ; (6.416) 
on aboutit, après des transiormations peu compliquées à l’expres- 
sion 


Pos () = Czexp { = (nent hs (6.417) 


9 2 
20511 


où €, est une constante, alors que ms41 el 0,41 sont fournis par 
les formules 


must (S) ms 
Mszi — RE : 
LAC | (6.418) 
0° 1 == __ . | 
h A+ (5) ° u? ) 


La figure 6.24 représente le bloc ® régi par l'équation (6.418). 
Comptons maintenant les pas à rebours, à partir de la fin du pro- 
cessus. Ainsi, les u,,x,seront les dernières valeurs, les wo, x2 les avant- 
dernières, etc. 
Soit la fonction de pertes de la forme 
Wi=ai-{ ur. (6.419) 


WW, est donc définie par l'équation de u, et celle des sorties x, _: 
qui apparaîtra au pas suivant. 
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Introduisons la notation 


T T T 
Sy = 2 Ri= 2 M{W:}= 2 M {xi_1 + ui}. (6.420) 
1— 4 2 —= 
Convenons de désigner par S* la valeur optimale de la fonction 
S, obtenue dans les conditions des commandes optimales u7, u*_1,.. 
., uŸ appartenant au domaine admissible Q (u;): 


*--minS,-min >, M 4x1 ui). (6.421) 
ii 


Les méthodes utilisées dans [6.16] pour établir les formules de la 
commande optimale relatives à l'exemple considéré se distinguent 
de celles que nous avons adoptées dans ce chapitre, bien qu’elles leur 
soient tofent à fait équivalentes et se basent également sur la program- 
mation dynamique. Dans ces conditions, une circonstance importan- 
te est que la fonction S* dépend de l’état « initial » du système B 
(pour un système d'ordre un cet état est défini par une seule coordon- 
née t-), des paramètres m,, o, de densité de probabilité «initiale » 
P, (u) de u, ainsi que du nombre r de pas à faire jusqu'à la fin du 
processus. Ainsi 


SF =), (r, Lr, My, O}) == SF, (tr, Mr, Or). 


La lettre r peut être omise entre les parenthèses, car elle figure 
dans l'indice (S*). 
Suivant le principe de la programmation dynamique, de même 
qu’au chapitre IV, nous avons 
r— 1 


S; (Gr, Mr) Or) = min M (W, + min M { > W;}} En 


u, Up es U1 i= 1 


— min M {xs ur ST à (tri, Mrs, Or). } (6.422) 


Ur 


Par ailleurs, l’étude du dernier pas conduit à la formule 
ST (ri, Ma, 61) == min M {5 + ui. (6.423) 
u1 


Ici on entend sous x, l’état après l’application lors du dernier pas 

de la commande v,, c’est-à-dire l’état à la fin du processus tout entier. 
En vertu de (6.442) et avec la nouvelle numérotation des pas on a 
A nn em (6.424) 


En remplaçant dans (6.418) la différence (x,7, — x.) ou, d’après 
la nouvelle numérotation, (x,_, — x,;) par la valeur égale uu, + 
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+ €, on tombe sur les expressions 


Or 
Ë 
puttmr (SE) +ugs 


ma er. | 
| 


C 
2 (=) 
r Or 


67 \2 : 
WF a ur ) 

Voyons maintenant s’il est possible d'effectuer une chaîne de 
calculs des valeurs de u* à partir des équations (6.422)-(6.425). 
La définition de u* d’après (6.422) impose un calcul préalable de 
SF_1. En outre, les expressions (6.425) doivent figurer comme argu- 
ments de S7_1. Pourtant, la valeur de u dans la première d’entre 
elles est inconnue. C’est pourquoi dans [6.16] on prend la moyenne 
de cette expression par rapport à a en considérant que la densité 
de probabilité a priori de y est P, (u). Cette opération s'explique par 
le fait que lorsque le nombre d’épreuves est grand, la formule de 
répartition de u a précisément cette forme. Or maintenant S 
est la fonction d’une valeur moyenne de la grandeur aléatoire m,_4. 
Des formules analogues peuvent se déduire aussi à l’aide des métho- 
des exposées aux paragraphes précédents de ce chapitre. 

La chaîne des calculs commence par la formule (6.423) où x 
est remplacée par sa valeur tirée de (6.424) 


S (ri, Ms, 05) == min M {x +u} = 
us 


(6.425) 


= min M {ui + (x + uu LE) — 
ui 
min [2?+(mi+o)u}+oi+2maixiu + uil, (6.426) 
u4 


Après avoir chassé les parenthèses on cherche la moyenne ; comme 
nous l’avons indiqué plus haut, nous avons adopté pour u la réparti- 
tion normale a priori à moyenne m, et à variance 0%. L’obtention de 
la moyenne de la grandeur &? entraîne l'apparition du terme 6ë. 

En égalant à zéro la dérivée de l'expression entre crochets de 
(6.426), on obtient uï et puis SŸ: 


u* — PLUIE 
1 mi+oi+1 | 
2 (1 +0?) (6.427) 


Si (za; me, O1) — mi Lo? +1 + GC. 


Passons à la définition de SŸ et u*. (6.422) amène 
S$ (x, M, Oo) — min M {x° + ue + SŸ (T1, mt, O1)}- (6.428) 
us 
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Si l'on introduit ici l'expression de Sf tirée de (6.427) et celle de 
x, tirée de (6.424), on obtient. une fonction de w2 assez complexe et 
la définition de u* par la méthode analytique devient difficile. C'est 
pourquoi les calculs ultérieurs ont été effectués sur un calculateur 
numérique. Lors de l'établissement du programme du problème la 
fonction S* a été approximée à l’aide des polynômes jusqu'à la 
puissance quatre. Comme l'indique [6.16], après les calculs et la 
définition des relations 


uŸ —uf (x;, M;, Oi) (6.429) 


il s’est avéré que dès le quatrième pas à partir de la fin, le caractère 
de ces relations se stabilise et l’approximation par les égalités 


ut (6.430) 
m3 EC of +1 


leur assure une précision suffisante pour la pratique. 

Cette loi peut être rangée dans le sous-bloc À” représenté sur la 
figure 6.24. 

Si la commande s’effectuait sans identification simultanée de 
l’objet, il est facile de montrer que les valeurs absolues des ; se- 
raient plus petites. L'étude dusystème réalisée simultanément avec la 
commande impose l’augmentation des valeurs de z;, car plus uw; 
est grande, plus le produit au; est grand par rapport au bruit Ë; et, 
par conséquent, plus l'estimation du gain inconnu u est exacte. Ainsi 
plus |; | est grande, plus le processus d'étude de la caractéristique 
du système commandé B est intense. Toutefois, la forme de la fonc- 
tion de pertes W; (6.419) montre qu’une valeur excédentaire des 
u, est à éviter. Premièrement, elle accroît le « coût » de la commande, 
c’est-à-dire le terme u° de la formule de W;,. Deuxièmement, elle 
peut entraîner pendant les pas consécutifs une augmentation de la 
grandeur de sortie, ce qui entraîne également l'accroissement de la 
fonction de pertes. La commande optimale uf résulte d’un compromis 
entre les tendances contradictoires exposées ci-dessus. 


CHAPITRE VII 


CERTAINES APPLICATIONS DE LA THÉORIE 


DE LA COMMANDE DUALE 


$ 1. Synthèse d’un modèle auto-adaptatif optimal 


La théorie des décisions statistiques permet de construire des 
méthodes optimales d'estimation des caractéristiques des systèmes 
de commande. D’après l'information qu’on possède au début de 
l'expérience, les problèmes qui se présentent dans le cadre général 
de la définition des caractéristiques d’un système peuvent être rangés 
en deux classes : 

{. Définition de la structure inconnue du système. 

2. Recherche de certains paramètres de l'opérateur connu du 
système. 

Dans les conditions réelles, la définition des caractéristiques n’a 
lieu que si le système fonctionne normalement, que la fonction de 
commande principale ne soit pas compromise et, généralement, en 
présence d'un niveau de bruits élevé. 

Le premier problème qui consiste à déterminer la structure incon- 
pue d'un système en présence des perturbations peut être énoncé 
comme le problème d'estimation d’un opérateur de liaison des pro- 
cessus aléatoires. Ses méthodes de résolution se basent sur la théorie 
des fonctions aléatoires étudiée surtout par À Kolmogorov [1.14], 
N. Wiener [1.151]. 

La deuxième classe, plus restreinte, présente elle aussi un grand 
intérêt pratique. En effet, souvent le comportement d’un système 
peut être décrit, au moins en première approximation, en partant 
des considérations purement physiques. Dans ce cas l’expéricence vise 
à rechercher les valeurs des paramètres justifiant l'hypothèse adop- 
tée sur la structure du système. 

Dans ce qui suit nous n’allons examiner que les problèmes de Îa 
deuxième classe. Deux approches différentes se font actuellement jour 
[7.1]. La première se ramène à définir analytiquement les caracté- 
“‘ristiques à l’aide d’un calculateur, analogique ou numérique, la deu- 
xième à adapter au système son modèle dynamique. 

La figure 7.1 représente le schéma fonctionnel d’un système de 
définition analytique des caractéristiques. © désigne un objet carac- 
térisé par le vecteur des paramètres u ; G et /} sont les chaînes d’ac- 
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tion qui canalisent l'information sur les signaux d'entrée et de sortie 
vers le calculateur C. Dans le cas général, G et Æ sont soumises aux 
perturbations aléatoires g (4) et À (6). Le calculateur a pour tâche de 
trouver l'estimation ddu vecteur des paramètres u sur la base de l’étu- 
de des processus aléatoires y (t) et z (t). Dans le cas de la définition 
analytique, le programme des calculs s'établit de façon à minimiser 
l'écart entre les caractéristiques calculées et les caractéristiques 
réelles. 

Ainsi formulé, le problème s'apparente au problème de la réali- 
sation optimale des signaux en présence des perturbations. La posi- 


Fig. 7.1. Fig. 7.2. 


tion générale de ce problème et les diverses méthodes de résolution 
pour le temps discret et continu sont données dans (5.22, 1.101. 

Si la théorie des communications examine d'habitude les cas où 
le même signal utile parcourt toutes les chaînes [7.2, 7.3], la défini- 
tion analytique des caractéristiques suppose une différence essentiel- 
le de l'information transmise par des chaînes différentes. La solution 
générale de ce problème et des exemples sont donnés par [7.4 à 7.61]. 

Nous avons déjà dit que la deuxième méthode de définition des 
caractéristiques consiste à adapter au système son modèle dynamique : 
on construit un modèle réel, souvent plus simple que le système lui- 
même, qui est commandé de façon à minimiser une certaine fonction 
(ou une fonctionnelle) de l'écart entre les signaux de sortie du modèle 
et ceux du système. Les paramètres cherchés sont lus sur le modèle 
une fois son réglage achevé. Cette méthode est illustrée par la figu- 
re 7.2,où M est le modèle du système, OC l’organe de commande, 
G et Æ les chaînes d'action, uw le vecteur des commandes. 


En conservant les notations du chapitre précédent, examinons un 
système continu à états discrets. Supposons que l'opérateur du modè- 
le soît choisi. Dans le cas général, la forme de l'opérateur du modèle 
et de celui du système peut être différente. Cela signifie qu’un systè- 
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me de structure définie est approché par un modèle de structure dif- 
férente. IL se peut également que les dimensions des vecteurs u et 
u ne coïncident pas non plus : le réglage est donc appliqué à certains 
et non pas à tous les paramètres du modèle. 

Le modèle est un système à paramètres variables et son signal de 
sortie z dépend à l’instant donné du réglage précédent. 


Des suites des signaux aléatoires z* _; et z. _1 Sont appliquées aux 
entrées de l'organe de commande muni d' une mémoire qui stocke en 


outre toute la matrice des commandes . que l'OC à élaborée. Le 
problème se ne Poe la structure et la règle de décision 


T, (u, a 4 2% 1» 2, _1) d'un organe de commande qui après l'étude 


des suites 7: _4; 2. et de ns matrice TR ,; fournisse la commande 
Us = Us su 2% ) 2e). (7.1) 


qui soit optimale dans le sens du critère du minimum du risque 
total 


R=MID W(s, , ax) D  M{W,)= DR. (7.2) 
CES : s—=1 s—1 


En principe on peut étudier également des fonctions de pertes 
élémentaires W, plus complexes dépendant non pas des valeurs instan- 
tanées z$ et x, des signaux de sortie du modèle et du système mais 
des vecteurs 


# LI E LE # > 
21 = (25, Z$h4 y ee 254); Tales Tstts re: Text). 
Un organe de commande est dit optimal s’il forme la suite 


= + —+ me 
des commandes uŸ = u* (u$_1, 25-14, Zs-x) minimisant le risque total. 
Ainsi, la conduite du modèle consiste à minimiser l'écart entre 


les processus aléatoires étalon x, et commandé zf dans l'intervalle 
de temps 0<Ss< 7. 
Il faut pourtant noter que même en E absence de perturbations 


dans la chaîne G, les processus aléatoires ze et 2 peuvent être proches 
sans que cela soit vrai de tous Les paramètres du modèle et du système, 
ce qui sans aucun doute constitue un inconvénient de la méthode 
faisant appel à un modèle auto-adaptatif. Il est pourtant fréquent que 
cette méthode est la seule possible. II en est ainsi, par exemple, quand 
on à à approcher un système réel complexe par un modèle de structu- 
re plus simple. 


— —> — 
Supposons que le signal v, et les perturbations g, et k, forment 
des suites de variables aléatoires réparties suivant des lois fixes et 
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> + —+ — 
que les processus v,, £,. hç ainsi que le vecteur des paramètres L 
sont indépendants les uns des autres. Les modes de combinaison du 
signal et du bruit dans les chaînes d'action G et /7 sont supposés con- 
nus et invariables, Îles chaînes elles-mêmes étant sans mémoire. 
Toutes les relations s'établissent pour le cas d’un système station- 
naire défini par le vecteur des variables aléatoires 


Le Le LL nu (lu, Ms + Un) 


La généralisation au cas des processus markoviens se fait sans peine 
de même que dans le chapitre précédent. 
L'expression du risque élémentaire, i.e. du risque associé à la 


n Led FA L] 
fonction de pertes W,(s, 4, 24 24), s'écrit 


— —_ 
R,= À Was, L 7h, En) 
> +  — — Pa 
PCT Esl 24, Ze_1r Us-1) 


+  — ms 


: ne BE ae —+ Ro 
X P (zh, Zsi|25-1, Zs-1, st) P (251, 281 Us) dG, (7.3) 


.—+ 
OÙ 24 (25, 2611, ..., 2811) est le vecteur des signaux de sortie du 
—} 
modèle entre s et (s+7{) tandis que tu (xs, Æsm, ..., œsus) est le 


vecteur des signaux de sortie du système aux mêmes instants. 
Avant de passer à la transformation des termes sous le signe 
somme de (7.3), considérons en bref les exigences imposées à la règle 


de décision T,(u.lu,1, 2*4, z,_1) de l’organe de commande. 
Cette règle peut être régulière ou stochastique, mais son trait 
essentiel est de permettre la définition de la commande optimale 


= A —+ + 

us à l’aide des seules données d'observation w,_,, 2*_3, z,_1. Autre- 
ment dit, nous cherchons un organe de commande dans la classe 
des systèmes qui vérifient la relation 


l's(us| Us, 251, Zen, M OR) = l'o(usluss, 2% 4, 261). (7.4) 
La relation (7.4) est la condition de la réalisabilité physique du sys- 
tème. 


Ecrivons le deuxième facteur de l'expression sous le signe somme 
(7.5) sous la forme suivante : 


> 


ne us ie 
P (24, Ts] | + 1, 28-41; Us_1) —_— 


| 


Fe ES  — + _ _ 
| P'(27,5%e, Us, M, Usyi | 2$—1, 2s-1 Us-1) de, (7.5) 


_ —+ 
AUS De Deep) 
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Ici Dors — (V4, Vo, + .., Vs, Usys, « -., Ver) 0St le vecteur des signaux 
d'entrée du système entre le premier et le (s-+{)-ième instants. 
D'après le théorème du produit des probabilités 


> 


mn” — _ — > as DES 
P(55, Lst, Us, U, Us+i | 25-41; 35-11 Us-1) — 


— =. S ns ni + rs : us ju à 
= P(u, Us+} | 251, Zs—1;: Us-1) P (261, Ts; us|u, Ustir Gs—15 Zs-1) U-4)» 
(7.6) 


Mettons le deuxième facteur de la formule (7.6) également sous 
la forme d’un produit 
— — Re + is 
P(zû, Lai, Us|U Vsrr, 25-1, 254, Us) — 
_ — — _ a eus + = EE — — us — 
= P (u, | M, Us+1, 254; Zs-1;: Us-1) P (51, Tail Us, U, Ust}s 225, Z8-1) « 
(7.7) 


Considérons la formule (7.7). Conformément à la COQUE ( 4) 


son premier facteur est la règle de décision T', (u, = is 2 2, 1) 
de l'organe de commande. Ensuite, les perturbations dans les chat- 
nes G et H étant statistiquement indépendantes, le deuxième facteur 
de la formule (7.7) peut s'écrire 


Fi 2% Æ 2 Le 5 
Par Zst | Us U, Us+t, 2-1; Zi) 
+ | 5% Nr: Ne AT — 
— P (2h12 1, Us, Ver) P (msi 261, Le, Vox). (7.8) 


> 
Examinons le premier terme de la relation (7.8). Vu que z4 — 
— (2, 2544, ..., Zsut), il se met sous la forme suivante: 
Eu 


. 
PE, Zeb: ..) 2h | 261, Usil Us} = 
; — ARE 
= [LP (tlét5es us 045) (7.9) 


Le deuxième facteur de (7.8) peut s’écrire de façon analogue. 
Mais la figure 7.2 montre qu avec les _vecteurs u et Do ; lixés la den- 


sité de probabilité P (x,+;lu, Vas, 2. _:) se transforme en fonction 
delta 


_— + 
P (Set; | M, Us+j: 251) = Ô (Tor; —25+j), (7.10) 
où té; (lu, vsa;) est la valeur du signal de sortie associée 


_ + 
à l’ensemble fixé (U, vs4;). 
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Ainsi, l'expression (7.7) devient 
. + Lt me = — 
P (351 Lsl) Us|l, Usin 28—19 Zs-1s Us-1) — 


er — nes 1 : ue = 
= fe (u, | Ug-1, Zs_ 1; Zs-1) IT F (254; | Zs+i—1s Us, Usaj) X 
2—= 


x [L 6Gus—2ts), 0<j< (711) 
ll | 


Revenons au premier facteur de la formule (7.6). Constatons d'abord 
que pour i <Z k la condition de réalisabilité physique entraîne l'in- 


dépendance de z* et z; de v, du fait que les signaux de sortie des sys- 
tèmes réels ne peuvent dépendre des signaux d'entrée futurs. 
D'après le théorème de Bayes 


+ 


_ —+ mA _S sRd 
PU, Usr1| 351, Ze-1s Us-1) — 


— + P 7% , 2e 3 à u, D, 
= P(l, veu) PATES ie = CL (7.12) 


—+ — PR 
P (25 _ 49 Zgts Us-1) 


En récrivant le numérateur de (7.12) tout comme on l'a fait dans 
le chapitre VI (cf. (6.28)) et en effectuant les substitutions successi- 
ves, on obtient l'expression suivante du risque élémentaire R,: 


> a — + 
Es — | Was, 1, 26, za) P (u) P (veu) X 
D Z — — 
SEE Zo_te Ug Mo Eos) 
s—1 _ 5s—1 RTE 
X [[ Pfzlu, vi, 25) [T P(ztlui, vi, 24) X 
i=1 ii 
l 8 
é 2 _S = us + PR 
X JT P(tilue, vers, 2645-41) [T PiGuiluss, 244, 24) li (us ] 78) de, 
j=0 i=2 
(7.13) 
où 
> 


Niue #k LE # + L* # _ 
Zi == (20 ZT 289 vous 261 289 Zshdy cos Z8U) = 
7. ns 
= (251, Sp), 1<S<n, 


et z* sont les conditions initiales du modèle. 
24-0966 
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Le risque total en z pas est égal à la somme des risques élé- 
mentaires 


n ñ 
R=VR,= | W(s, L 2%, oi) X 
s—=1 Vus + es à 
BZs4 Es 24e Uge Hi V4) 
s—1 8—1 ee 
is en _S _ + D > — 
X P (u) P (Us) [] P (ziz:41, M, vi) J[ P {2 lui, vi, 2f-1) X 
i—{ i=1 
| 4 7 + + de Rs e pe 
X Il P (zi+s | Usy Us+j; Z54j-1) Jl l; (ui | Ui-4; 21, Zi_1) X 
j=0 i=2 


x Tiulzt) d@. (7.14) 


ES. LEE eu > 
Choïsissons les fonctions Fs(us|us-1, 25-14, Ze) pour 2<Ss<n 
sous la condition de minimum du risque total. Dans le cas général 


= — ns : 
l'e(UslUs4, 251, Zs-1) étant les densités de probabilité, elles doivent 
donc vérifier la condition de normalisation 


] SL 
Lo Gsl Usa as 204) IQ — 1. 
Qu.) 
Choisissons tout d'abord la dernière fonction l'h (un [Un-1 Zn—1; 


2) Celle-ci est déterminée de la condition de minimum du der- 
nier terme À, car seul R, dépend de [,;. Supposons que toutes 
les autres fonctions F4, L, ..., l,_1, de même que les commandes 


respectives Ui, We, «..s Un4, SOnt trouvées. Ecrivons l'expression 
de Rn 


Br = | Wa (r, 1, 2 ns) P (Hi) P (On) * 
_ = D + 
RL Zn_49 Un M Vna4D) 
mi _ ee Lie TO + — 
X JT Pilzis pe vi) [I Plus, vi, 21) X 
i—1 i=1 


l CR Fe 
X Il -P (zn+5 [Un ; Un+js 2h45 1). X. 
3=0 
Ln ” h . 
X II Ti (U; Ui-1;, zi-1, Zi-1) li (u: | Zÿ) d£2. (7 .15) 


i—2 
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Introduisons les fonctions 


> + = + 
= À W(s 1 2, zu) P() P (cu) x 
Az L, V 41) 
s—i s—i Le 
_— + — »1— ES ue 
* Il P(zilu, Ut, Z;-1) Il P (à (us, Vi, 251) X 
i=1 i=1 
; >. + un 
X Il P (254; | Us, Usaÿ; 2543-41) ag (7.16) 
| j=0 
et 
S és 
B: = Li Ts. (7.17) 
i—= 
Compte tenu de ces notations avec s—n, on a 
Rh À anfnlnd@= | Bu-ytn dQ, (7.18) 
ex A — ES me — = 
O(u,, Un 2 * Tn_1) ut tn 1: Zn—1) 
où 
#n — \ anTn (Un lUn-s, 2-1, 2n1) dO. (7.19) 
Au) 


(7.18) montre que, f,.1 étant donnée (cf. 7.17), le minimum de 
BR, s'obtient pour une commande u, qui minimise la fonction %x,c 

Adoptons l'hypothèse suivante qui s'accorde parfaitement ave. 
l'interprétation physique du problème. Recherchons l'organe de 
commande dans la classe des systèmes munis de stratégies pures, 
c’est-à-dire des systèmes dont la règle de décision est une fonction 6. 
Dans ce cas 


Te(usl us 24 201) = Ô(us—u*), 1<s<En, (7.20) 


où u* est un vecteur des commandes optimales. En posant s — n, 


en portant (7.20) dans (7.19) et en intégrant par rapport à 4, on tom- 
be sur 


> 
ù a* est foncti iée à 1 de optimale u*, O 
OU On €ESt une ionCtion associée à la comman«ae OP imale Un. n en 


déduit immédiatement la règle de recherche du vecteur optimal u* 
qui minimise le risque élémentaire À, : le choix de ce vecteur est 


_ 4 + _ 
déterminé en minimisant la fonction œ}, (Uh, Un-1, 2Zñ-1s 2n-1) 
par rapport à w,. 

24% 
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De plus il est clair que 


UR = Un (Un-1, 241, Zn). (7.22) 
Des raisonnements analogues à ceux du $8 2 du chapitre VI mon- 


trent qu’on obtient la commande optimale u#_, en minimisant la 
fonction 


Yn-k = En-k + | Vn-h+1 dQ, (7.23) 


O2} ps Zn_h) 
VA =», par rapport à un_. Dans ces conditions 


L'an = Ô (Un-x —u#_r). (7.24) 
On calcule ainsi toutes les fonctions [,, L,.4, . .., > sauf FT, 
et toutes les commandes respectives u,, u,._1, . .., Up sauf 4. 


Pour ce qui est du choix de la commande initiale w; (et de la fonction 
T',}, deux cas peuvent se présenter : 
1) la commande u, est donnée et, par suite, son choix est inutile: 
2) le choix de la commande u, se fait selon les règles générales. 


Il est clair que la commande initiale u, dépend des seuls rensei- 
gnements a priori sur le système et non pas des données d'observation 
absentes à l'instant initial. 

Considérons un cas particulier d’un grand intérêt lorsque les per- 
turbations sont absentes dans la chaîne G et le signal d'entrée v 
est un processus aléatoire muni d’une loi de répartition connue. Dans 
ce Cas, RE 


Îl P (zf Fr D. 28 1)= fee a — 7), (7.25) 
l En l a 
[LP ss ds Dot Bt) = 6:24), (7.26) 


où 2° = 7* ue, Ds, 23), = 21; Ga, Das 25) sont les valeurs réel- 
les du signal de sortie du modèle aux instants i (1<i<s—1) et 


s+j (0<j<{) respectivement. 
En portant (7.25) et (7.26) dans l'expression UE 13) du risque 


élémentaire et en intégrant par rapport à zu, on à 


= = (Eee 
Rs — j W. (s, Î, Us+t; U, Us 26) X 
SCAN su Ho DD _ 
X P (u) P (uen) LT P (lu, vi, 2141) X 
i—1 


x JL Tiluiluis, Zams vin, 29) li Gu]z8) d@. (7.27) 
i-2 


$ 1] SYNTHÈSE D'UN MODÈLE AUTO-ADAPTATIF OPTIMAL 273 


De même que dans le cas précédent, le choix des commandes opti- 


males u*, u*_41, ...,u* se fait par itération. 
Introduisons la fonction 


Œs — | W: (s, l, Usut, U, Us: z6) P (u) P (Us+i) X 


au, DD 
s— 1 
X [TP (Gill, vi, z:) do, (7.28) 
i=1 
où 
Vsi — (V1, Vo, -.., Us_4r Vss Up Usyi) — (Us-1, Ust). (7.29) 


Un raisonnement identique à celui du cas précédent montre que 
la dernière commande optimale uA se détermine en minimisant @; 
de (7.28) par rapport à w,. Dans ces conditions 


…—— > — 


n— Ta (Un- 1r Sn-1s Un 1 2è) (7.30) 
et 
Th (nl Unis 2n-1 Unis 20) = 0 (Un —ux). (7.31) 


On établit de même que pour obtenir la commande optimale 
un_n il faut minimiser la fonction 


Vn=amnt À vi de, (7.32) 
Br Vnn) 
par rapport à Un-r, Où n—k>-1. De plus 
Œn —= Ÿn 
lion = 6 (Un-h —U#_p}. 
Les formules deviennent encore plus simples si le signal d'entrée 


v du modèle et du système est un processus déterministe variant de 

façon connue en fonction du temps. Ce cas où une perturbation non 

contrôlable agit seulement à la sortie du système tandis qu'aux entrées 

du modèle et du système est appliqué un même signal déterministe 

(discret ou continu) est le mieux étudié dans la littérature [7.1]. 
Il est clair que dans ce cas 


et 847 
P (Dsxr) = I Ô (uv; —v#}, (7.33) 


où v} est la valeur réelle du signal d'entrée à l'instant & — 
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Revenons à la condition (7.4) à laquelle doit satisfaire la règle 
de décision l', de l’organe de commande optimal OC. Nous avons 
précisé plus haut que le sens physique de cette condition est dans ce 


que la commande w,, élaborée dans l’organe de commande à l'instant 
donné, n’est définie que par l'information fournie aux instants anté- 
rieurs. 


Pourtant, si le signal d'entrée v est un processus déterministe dont 
on connaît la loi de variation dans le temps, l’organe de commande 
possède une information plus complète (par rapport à l'état précé- 
dent) sur le système. 

En effet, l'organe de commande dispose alors à tout instant d’une 
information non seulement sur le comportement antérieur du sys- 
tème, mais encore prévoit les valeurs futures du processus à l'entrée 
du système, et donc peut assurer un choix plus heureux de la com- 
mande optimale us. 

Dans ces conditions l'égalité (7.4) devient 


> + ES _— + ms + se 
le (Us | Us-t: Zs—1 Zs-1 LU; uk) = le (us|us_4, Zg-1r Uh) Z0); (7.34) 


où 4 >5s. Par conséquent il se peut que la commande w, dépende des 
valeurs futures du signal d'entrée. Ce phénomène tient physiquement 
à ce que dans le choix de la commande optimale le système tend 
à utiliser toute l’information fournie, y compris celle sur le compor- 
tement futur du signal d'entrée déterministe. 


En portant (7.33) dans (7.27), en intégrant par rapport à Veut 
et compte tenu de la condition (7.34), on aboutit à 
s—i 
R; Fe À W. (s, d, Usb L, Us, 25) P(]II P(lu Vi; Zi-1) X 


+ mc i=1 
Par D) 


nn — es = = + 
<IT lifuiluis, 254, VÉp, 20) l'a (u1| 20, vip) 49. (7.85) 
i=2 


Dans le cas considéré la recherche des commandes optimales 


u*, UË_4, ..., ui se fait toujours par itération. 
Introduisons la fonction 


Us — À W: (s, l, dr b, ü. 20) P (u) X 
Qu) 
s—1 : 
X [I P(zlu, vi, 24) dQ. (7.36) 


i=1 
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On montre aisément que la commandée optimale u* est fournie 
par la minimisation de @, par rapport à un. De plus 
ee … E es ne —, 
ñ = Un (Un-1 Zn-19 Un+tis zÿ) 
et 
Ty 8 (un — u). 


Il n’est pas difficile de montrer que la commande optimale UX_h 
s'obtient en minimisant par rapport à Un- k« la fonction 


Vr-h = Anh T | Va pt a, 
AZ n_R) | 
n>n—k>1, (7.37) 


OÙ Yn — A; Duck = B(Un-r —uñ). 
Considérons à titre d'exemple la 
synthèse d'un modèle auto-adaptatif de 
l’intégrateur. Supposons que la chaîne G 
ne donne pas lieu à une perturbation et 
que les signaux d'entrée du modèle et du Fig. 7.3. 
système constituent le même processus | 


aléatoire v (fig. 7.3) qui est une suite des échantillons indépendants 
de loi de répartition invariable 


te 


= ere 1.38 
P (v:) — “a se exp {— +: (7.95) 
D’après la figuré 7.3*) on peut écrire pour le s-ième pas 

Be dot heu Di vi do hs, (7.39) 


où y est le gain aléatoire et x, la valeur initiale du signal de sortie de 
l’intégrateur. 

En général, la condition initiale To, de même que le gain pu 
changent aléatoiremerit d’un processus à l’autre et on considérera 
donc que le signal de sortie dépend non pas de la seule variable aléa- 
toire u mais du vecteur aléatoire (u, v). Toitefois, dans l'exemple 
considéré, admettons que l'état initial du système est connu avec 
précision. Cette hypothèse nous sera utile dans ce qui suit. 


Supposons que la perturbation hsoit une suite des variables aléa- 
toires indépendantes de densité de probabilité invariable 


a) exe {EE}, (7.40) 


*) Un schéma analogue permettant la définition analytique des paramè- 
tres sera appelé «ouvert». 
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et que le paramètre aléatoire pu vérifie la loi normale 


ee __ {W—Ho) 
ga (ui) — Gy V2x exp { 20%, } d (7.41) 


Le gain du modèle change d'un pas à l’autre. Compte tenu de tout 
ce qui a été dit, l'équation du modèle peut se mettre sous la forme 


25 — UsUs + 231. (7.42) 
Choisissons la fonction de pertes quadratique 


We (2Ë—2) — (usvs + 2Ë.1 —u à UV; — %0)°. (7.43) 
j— 


Posons s— A et écrivons la fonction &, à minimiser par rapport à u: 


© O0 
__—— P(Ue- | À (un 2h 1 — 
"onde (ner) (Un-1) d À nn + Zn-1 
(U— ho)? (Un — my)? 
Souper {Hg nt 


j=1 
n- 1 


LS (: un u+) )'}dudn. (149 


Des calculs élémentaires mais très longs amènent 


= dat gr (On d-1 — 2% 1 + a), (7.45) 


hu 6 À 
: A | 
ni — s ; 
2 2 2 
toi 2% (7.46) 
u 

Pi — à Vi; | 
3=1 } 

6; —= Zi — Lo. 


Ici dÿ.1 est l'estimation optimale établie par la méthode analytique 


+ + 
après l'observation de v,1, 2n-1 17.7, 7.8]. Malheureusement seule 
la commande optimale terminale u* peut s ‘obtenir sous forme expli- 
cite. 
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Si l’on suppose que le signal d'entrée est un processus déterminis 
te variant de façon continue, la situation devient bien meilleure. 
Dans ce cas, m, = v,, 65 — 0 et la formule (7.45) devient 


4 
un = dn_1 + de (Pn-1dn-1 —2n-1 + To). (7.47) 


Le schéma comportant le modèle est en l’occurrence neutre et, 
par conséquent, la commande optimale u* pour n'importe quel 
s > 1 se calcule d’après une formule analogue à (7.47), c'est-à-dire 


UE = da + (pond 4 — 21 + a). (7.48) 


La commande optimale initiale uf choisie avant l'observation 
s'écrit 
* __. 
= ho. , (7.49) 
où 26 est la valeur initiale du signal de sortie du modèle et u» l’espé- 
rance mathématique de la densité de probabilité du paramètre u. 


Sue ts una st nn tit 


Fig. 7.4. 


Dans ce qui suit nous allons étudier Le système au signal d’entrée 
déterministe. 

La figure 7.4 représente le schéma fonctionnel d’un organe de 
commande optimal construit d’après les formules (7.48) et (7.49). 
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L'organe de commande est composé de deux blocs : bloc À de recher- 
che de l'estimation optimale dé, et bloc B de définition de la com- 
mande optimale uÿ. 0" désigne ici l'intégrateur à gain unitaire; 
Z les additionneurs cumulatifs ; 7 les multiplieurs ; D les diviseurs ; 
EC l’élévateur au carré; + le circuit de retard d’un pas. 

Les formules (7.48) et (7.49) montrent que pour v, +0 la com- 
mande optimale uf —>0o0o. Pour obtenir un système physiquement 
réalisable il faut introduire la contrainte |uf | < Q et comparer 
chaque fois la commande obtenue avec le seuil ©. 

Pour simplifier l'analyse ultérieure supposons le nombre Q et le 
signal d'entrée si grands que la condition | uf | & Q soit vérifiée 
pour toute commande donnée par la formule (7.48). La commande 
optimale us peut s’écrire alors sous une forme un peu différente. Il 
est clair que 


251 = Vstüst + 252. (7.00) 
Soit us = u#_1. D'après (7.48) nous avons alors pour 24 
| 1 | 
= veau +22 = Vos | dE a+ (pe dé 2 — 25 2 + 20) | + 
| Ty WPe-2ds-27 


+ 282 = 0105-92 + Ps-od$_2 + To. (7.51) 
En portant (7.51) dans (7.48) il vient 


ut = dis + EL (di —dh >), s=2, 3, (7.52) 


Considérons les formules (7.46) et (7.52). Les fonctions u# et dé 
sont les estimations du même gain aléatoire a, mais établies en fonc- 
tion des objectifs de commande différents: uf se calcule à partir 
de la condition de minimum de l’espérance mathématique de la som- 
me des carrés des écarts entre Les signaux de sortie du modèle et ceux 
du système, alors que dé s'établit à partir de la condition de minimum 
de la variance moyenne de l'estimation. Essayons de comparer ces 
estimations. Notons tout d'abord que dé se définit après l’obten- 


—+ ES 
tion du vecteur (0,1, Z4-1), alors que pour prédire u* on se base sur 


se 
l’ensemble (D. 341).- Le processus discret v étant déterministe, les 
estimations u et d*_, se calculent pour le même volume d'informa- 
tion sur le système et, par conséquent, ce sont ces estimations qu'il 
faut comparer. 


Considérons la convergence des u$1 et d$ vers u. Soit u la 
valeur vraie du paramètre u dans le cycle de régulation considéré. 
Les estimations ui,1 et d$ étant des fonctions de réseau aléatoires, 
nous examinons ci-dessous la convergence vers 1 non pas des-esti- 
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mations elles-mêmes, mais de leurs espérances mathématiques con- 
ditionnelles M {ufi1lu} et M {élu}. 

Comme il s'ensuit des formules (7.46) et (7.52), dÿ et us: 
dépendent non pas des variances 6}, et oi mais de leur rapport 


B—'0}/05. La figure 7.5 représente la variation de M {ul} 


(courbe 7) et de M {d*|u} (courbe 2) en fonction du nombre d’ob- 
servations, pour les valeurs du paramètre B?—0,1; 1; 10 avec 
Uo—=Zo—=25—0 et le saut unitaire à l'entrée du système: 1: — 
—V,=...—=1. Il faut prendre en considération que toutes ces 
courbes sont des enveloppes des fonctions de réseau définies seule- 
ment à des instants exprimés par des nombres entiers. 

La figure 7.5 montre que pour des Lo, %o, 25 données, les fonc- 


tions M {uïilu) et M {d*|u} convergent vers la valeur vraie pu 
de façon à peu près identique mais suivant des lois différentes. 
Dans le cas d’un modèle auto-adaptatif on est en présence d’une 


surrégulation, alors que la convergence de M {du} vers u est 
monotone. 

Le schéma à modèle auto-adaptatif possède une propriété cu- 
rieuse. Ecrivons successivement quelques commandes optimales (for- 
mules (7.49) et (7.52)): 


Éd 

* 29 — Lo 

uÏ — di — 
P1 

uÿ= Ed dj 

Va V2 (7.53) 
* — Ps 33 Ps-1 d*_o. 

Us 


En multipliant chaque commande uÿ par v; et en additionnant 
terme à terme les deux membres des relations (7.53), on trouve le 
signal de sortie du modèle à la fin du s-ième pas 


25 —= UE USvo + ... + uivs=pdi- 1 + To — 2. (7.54) 


D'après (7.54) le modèle n’accumule pas les erreurs de définition du 
gain, en sélectionnant chaque fois l'estimation la plus précise dans 
les conditions considérées, à savoir di_,, et en compensant l’influen- 
ce des estimations précédentes dô, df, . . ., dé sur le signal de sor- 
tie du modèle. 

Plus haut nous avons supposé connues les conditions initiales 
x, du système. Supposons maintenant qu’en les définissant nous 
avons commis une erreur À... Cette erreur entraîne des erreurs sur 
la définition des AdË_1 et Au. 
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Voyons comment Ad%_1 et Au* dépendent de A.. Soit toujours 
Vi=Va—...—1. La formule (7.46) permet de tirer 


Mlus1A} 
{di VA} a) 


#°=0,1 

TR ne c 

1 

2) 

01 2 34 3 ' 

Muni} 

Méds114} 
24 


ME US 2} 


Fig. 7.5. Fig. 7.6. 


s—1 s— 1 
BPuo+ > Pizi — To >» Pi 
= —— = "1 , (2.55). 
Fr 2 pi 
es 
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Avec x= to + A, l'erreur sur la définition de dË_1 s'écrit 


—=—— . (7.56) 


D'après (7.52) nous avons pour le schéma à modèle auto-adaptatif 


s—1 
A2) Pi B?+ > pi 
s—2 j 
| Pi 
"= — |}. (7.57) 
F2 Pi 
Considérons l'expression entre crochets. Sous les hypothèses 
faites (vu: = 1), on à 
pu s(s—1) 
D pi pat pat +. + Pos 1 +24... +(s—1) IT, 
i=1 
s—1 
Dot=vr2r.., +116 DE D (7,58) 
i=1 | 
En substituant 98) dans (7.57), on obtient 
s—1- ; 
> Pi 5 Pi 
41 : en = ” 
s—i 
BED pr P?+ 5 pi 
i=1 i= 
+ — 2 0 (7.59) 
Bi+ 5 (5—1) (25 — 1) B5+ EE (s— 1) (s—2) (2s—3) 


A partir d'un certain s, la condition 
(s— 1) (s— 2) (2s-—3) 
6 


> P° 
est vérifiée et der ss ou se ramène à la forme suivante: 
| 2s—2 -3A 1 

D nn = nr 
Aus æ ni us Dr 253 — 251 2-3" (7.60) 
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Si l’on tient compte que sous les hypothèses adoptées 


dti x, (7.61) 
la formule (7.60) peut s’écrire 
7 As, 
Aus æ — 3 (7.62} 


. Si l’on pose que les conditions initiales vraies sont nulles et que 
%o — Àx, (7.62) montre que le schéma à modèle auto-adaptatif est 
bien moins sensible aux conditions initiales qu’un schéma « en boucle 
ouverte ». 

La figure 7.6 donne les diagrammes de Auë},, (courbe J) et de 
— Ad$ (courbe Z) en fonction du nombre d'observations pour B? — 
0,1; 1; 10. De même que sur la figure 7.5, toutes ces courbes sont des 
enveloppes des fonctions de réseau. La figure 7.6 montre que dans un 
système à modèle auto-adaptatif l'influence des conditions initiales 
cesse de se faire sentir dès le quatrième ou le cinquième pas. 

L'allure des courbes 7 de la figure 7.6 peut s'expliquer de la façon 
suivante. La régulation du modèle se fait en deux étapes. La premiè- 
re étape, lorsque l’effet des signaux d'entrée est encore faible et l'écart 
entre sorties est défini presque entièrement par la différence des con- 
ditions initiales du modèle et du système, le choix du gain du modè- 
le doit assurer l'élimination de cette différence. C'est pourquoi 
pendant les premiers pas de régulation, M {u*},[uw} peut différer 
considérablement de u et, par conséquent, | Auÿ41| peut être; plu- 
sieurs fois supérieur à | Ad*|. C’est versle cinquième ou le sixième 
pas, lorsque la différence entre les conditions initiales du modèle 
et de l’objet est presque supprimée, que commence la régulation du 
modèle ayant à peu près les mêmes conditionsinitiales que le système, 
régulation qui a pour but de minimiser la différence entre lu et le 
sain du modèle, car c’est cette différence qui détermine l'écart entre 


sorties. 
Reprenons l’équation (7.39). Considérons le cas où La perturbation 


—} 
k représente une suite de variables aléatoires indépendantes d’espé- 
rance mathématique m, non nulle. Cette équation peut s’écrire 


Z8 = p 2 Vi + Lo + hs = p 2 Vi + Lo + Mn + Ée) (7.63) 


où Ë, est une variable aléatoire centrée. En posant 20 + mx = x, 
et en appliquant les raisonnements précédents, on peut montrer que 
le schéma à modèle auto-adaptatif est également peu sensible à l'er- 
reur de définition de l’espérance mathématique de la perturbation. 

Ainsi, l'avantage que présente Le schéma à modèle auto-adaptatif 
par rapport au schéma en boucle ouverte est une sensibilité plus 
faible aux conditions initiales et à toute sorte d'erreurs dont les er- 
reurs de choix des paramètres et d'affichage de gains. 
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$ 2. Commande optimale d'un système à retard pur 


Considérons le problème de synthèse d'un organe de commande 
optimal pour un système à retard pur en présence des perturbations 
aléatoires dans la chaîne de réaction [7.9]. La commande de tels sys- 
tèmes s'impose dans certaines gammes de fabrication de l’industrie 
chimique, de la métallurgie, etc., Là où il 


s'agit du transport des matériaux en flot. # 

Le phénomène du retard pur ou de par- 2" [ol y x 
cours s'observe, par exemple, lors de Ésen 

l'écoulement des fluides dans des canali- ; 

sations ou lors du transport des maté- * 15 h 
riaux dans les fours à ciment rotatifs. D 

Parfois le retard est imputable aux appa- | 

reils de mesure. La figure 7.7 représente Fig. 7.7. 


le schéma d’un système automatique. Le 

signal émis par l’objet O est canalisé avec un retard pur tx vers 
l'entrée de l'organe de commande OC par la chaîne d'action H# 
introduisant des perturbations. L’équation de l’objet est de la forme 


z(t+ ta) = pu (0 + u (à. (7.64) 

Dans ce qui suit nous allons considérer toutes les variables à des 
instants discrets avec un intervalle At que nous allons choisir tel 
que T — D soit entier. Introduisons les notations suivantes: x,, 
Lé, Us, L, pour respectivement le signal de sortie du système, la 


x 


consigne, la commande et la perturbation à l'instant s; y, pour la 
valeur du paramètre x, mesuré avec une erreur h,, c’est-à-dire 


Ys = Tes + hs. (7.65) 


A des instants divers, les valeurs de La perturbation sont indépendan- 
tes. Pour le temps discret, l'équation du système s'écrit 


Lsir — Us + Use (7.66) 
La fonction de pertes a la forme suivante: 
Wa (xi —x.). (7.67) 


La perturbation pu et le bruit k sont munis d’une loi normale, leurs 
espérances mathématiques sont nulles et leurs variances 6, et of. 
On peut montrer, comme on l'a fait au chapitre VI, que le systè- 
me automatique (7.7) est neutre. Ensuite, pour un système à retard 
pur, la commande u, n'intervient que dans le risque R,.+, au (s +7)- 
ième pas, les risques R;,j=s + 7, en sont indépendants. 
Examinons les deux cas suivants : 
4. La perturbation u, — u est une variable aléatoire. 
2. La perturbation u, est un processus aléatoire. 
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Supposons que l’action perturbatrice est une variable aléatoire. 
En vertu des équations (7.64) et (7.65) on a alors l'égalité 


P(y;lu 25) P (y;ll ui). (7.68) 


La commande optimale u$ est fournie en minimisant par rapport 
à u, la fonction 


s—1 
Gr | W:P(u) [[ P(;lu, u)40= 
(1) 70 


s—1 


= À (tenu) PU) [] P(lu, 2) du. (7.69) 


3—0 


La densité de probabilité conditionnelle de la formule (7.69) 
s'écrit 


P(y;lu, Uj-r) = VE EXP {—' ne (in soso 25 L. (7.70) 


Après des transformations peu compliquées, on aboutit à l’expression 
de la commande optimale 
s—1 


us = Br D (Yi—u;x), (7.71) 
j=0 
où À — 0/0. Le deuxième terme de (7.71) est l’estimation de la 
perturbation p Cette expression se distingue de la formule (6.85) 
par le fait qu'elle tient compte des x retardées pour un temps T 
et de la valeur de la consigne dans + pas. Si les commandes x anté- 
rieures à l'instant s = © sont inconnues et si on ne peut pas les poser 
égales à zéro, l'expression de u* doit être modifiée de la façon sui- 
vante : | 
s— À 


1 
= me ps À (Yi —U;-+) (s >> +). (7.72) 
= 
Notons que les up, Ua, . . ., u, ne sont choisies que d'après des don- 


nées a priori sur la perturbation. 
Etendons les résultats obtenus au cas d’un système continu (cf. 
& 2 du chapitre VI). Dans le cas d’un temps continu la commande 
optimale est donnée par la formule 
t 
\ly()—u(t—Tr)] di 
: \ _0 
u*(t)=2* (+ Tr) TT t+a ; 
où a-=2190/0%, 90 est la densité spectrale du bruit blanc 4. 


(7.73) 
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Le premier terme de la formule (7.73) peut s’obtenir à la sortie 
du retardateur pour un temps tx, le deuxième à la sortie du filtre F 
(fig. 7.8,a) de fonction de transition 


o(t)— —— (7.74) 


si on applique à l’entrée du filtre la différence vntre y et la commande 
u retardée préalablement de 14 dans le retardateur. 

En remplaçant le filtre F par un circuit apériodique à constante 
de temps 7 — 1,1a, on obtient un système voisin de l’optimal. 


T& 
. 
FR 


; 
: 
+ 
| = 
F u 
+ 


« "Li 
Le : 
LT à 


& 


== — ——— 


Fig. 7.8. 


Comme on le voit de la figure 7.8,a, l’organe de commande optimale 
OC doit comporter le modèle M du système de fonction de transfert 


e "Het le calculateur chargé à donner la moyenne statistique et 
les valeurs futures. Pour le système de stabilisation automatique, 
x* (1) = x*, et c’est pourquoi le bloc de fonction de transfert 


eP"H devient inutile. On en a tenu compte dans le schéma 7.8,b 
obtenu à partir du schéma 7.8,a. La fonction de transfert du filtre 
F; s'écrit 
Re: 
B(=-T : (7.75) 


On a intérêt à connaître les changements de structure dans la 
commande optimale en l’absence du bruit dans la chaîne de réaction. 
Avec So = 0, a = 0, par conséquent 7 — 0. Le schéma 7.8,b se 
transforme en schéma 7.9,a. La fonction de transfert de l’organe de 
commande OC se met sous la forme 


4 
D, (p)= = 
: 1—e Fr 


e (7.76) 

On peut comparer un schéma construit sur la base d’un régula- 
teur à retard de Reswick [7.10] (fig. 7.9,b) avec un schéma de régu- 
lation prévoyant l'utilisation de l’extrapolateur linéaire de Smith 


25—0966 
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[7.111 (7.9,a). [7.10] corcerne essentiellement le cas KÆ = 0. Mais 
sous cette condition, les schémas 7.9,a et 7.9,b se confondent. La fonc- 
tion de transfert de la partie du 
système comprise entre les points 
Niet Na (fig. 7.9,0) s'écrit 


 _ 
ne 1+KeKy mG(pP). » —PTH É 
 ORREG me 


(7.77} 


où &,, Kn sont les gains; ÆX.G(p} 
la fonction de transfert du régula- 
teur; XcKm (1 —e "H) celle de l’ex- 
trapolateur linéaire. | 

Pour ÆXn=1 et K,kK S 1 on 
peut écrire approximativement 


{ 
Di) = PTE (7.78) 
— € 


La comparaison de (7.77) et 
(7.78) montre que les systèmes des 
figures 7.9,a et c sont identiques. . 
L'équation du régulateur RJ est 
également une approximation de 
l'équation (7.76) [7.91]. 

Ainsi le régulateur à retard de 
Reswick, le régulateur RI et le 
régulateur à extrapolateur linéaire 
de Smith doivent être considérés 
comme des cas particuliers d’un 
| organe de commande optimal OC 

Fig. 7.9. en l'absence de bruit dans la 
| chaîne de réaction. 

Recherchons la commande optimale d’un système sous la con- 
dition que la perturbation soit un processus gaussien aléatoire. 
De même que précédemment, commençons par le cas du temps dis- 
cret, puis étendons les résultats à un système continu. Lés calculs se 
simplifient si la fonction de corrélation normée est de la forme 


p(B)=e-aôl, O<a< 00. (7.79) 


Pour un processus discret le corrélogramme représente une suite dé 
points séparés par l'intervalle Af. Dans ce cas. le processus est mar- 
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kovien 
8 
P (ps) = P (lo) Î Plus), (7.80) 
+ _ (hi—eb; a 7, 
P (|) = NP {Sr -}: (81) 


de plus p—p{Af}, La fonction «,,. au (s+T)-ième pas est définie 
par l’expression 
s—1 
Gen À (ris ho— 0) P (ue) IT PGilbie wir) dQ. (7.82) 
Q(,) — 


La commande optimale uf est définie en minimisant @s;34 par rap- 
port à w.. On à 


Us = LÉtr— Pet , (7.83) 
: Bstr 
où 
Fe s—1 
Bi | PQ) IT PGlhi-s u5) d0, (7.84) 
au.) 
… s—1 
Bie= À WP (M) IT Pubs ui) dO, (7.85) 
j=0 


TAN 
d’où, compte tenu de (7.79), 


S—T— 1 


Bre—pttt | peesP(uo) IT Puit) 
AH, _r_0) ou 
s—1 
XII P(yiluir, ujx) dQ=oi;pt+t, (7.86) 
ei 
Bite | Po) IT Plus) x 
ag) j=1 
s—Î 
X IT Pluie u5-0) dO= dun. (7.87) 
3—=0 , 


L'équation (7.83) se met alors sous la forme 


a” 
ui = mie — pti . à (7.88) 
. "s T 


25? 
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En portant (7.70) et (7.81) dans (7.87), on a 
S—t—1 


sr — À: { ia Î exp {5x [A+ > (u; —pù;1)? À + 
= co j=1 


s—1 


E 2] (Ur — Us) + 


+ S w — Uj-x —U;-r) ]} do dus -.. dUs-r1 = 
3=0 
5s—T—{1 


He ... ( exp {— 597 [ui — Di (U5—pu3-1) A+ 
— 00 — 00 j=1 
S—T—1 


+ D Gin us) ]} duo dim... dues. (7.89) 
j=0 


Dans la formule (7.89) 


2 
= (7.90) 
mi 
A oh 7.91 
— 02 (1 — p?) } ( .9 ) 
; s—{ 
C—exp {ge D Gi —uie—us et}, (7.92) 
3—=0 
À = —— 7. (7.93) 


0,0% (2m) (1—p?) 2 


D'une manière ‘analogue on aboutit à l'expression de œ;41. Dans 
[7.9] est calculé le rapport &;:+/044- et donnée l’expression suivante 
de la commande optimale : 


US = Le — D — De Ug-r1) + —— 


x [ (gs — Us-gs) + ——— 


Ps-T-2,1 


[ (es — Ug-x-s) +... + 


+ (ur — Lo) | : ; , (7.94) 


Pse-t-3,1 


= USE 
jé (7.95) 
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tandis que 


1 ' 
Po — 20? (1 + À ) = Ps-t-11 } 
4 / ? « 


Poi — Po: 
r? (7.96) 


8 Re + ee ee + + + 


Le deuxième terme de la formule (7.94) est l'estimation de la per- 
turbation à l'instant s + v. C’est l'espérance mathématique condi- 


tionnelle de u,+, pour des y,1 et us, connues. Remarquons 
que dans (7.94) les différences (y; — u;_.) figurent avec des poids 
différents: l'information plus ancienne s’altère et l'information 
nouvelle s’accumule. L'apparition d'un facteur devant le premier 
crochet de (7.94) signifie que OC doit prédire (dans le sens statis- 
tique) les valeurs futures de u. En effet, pour définir l'espérance 
mathématique conditionnelle de u,+., la valeur de u,_1 étant con- 
nue, il faut multiplier u,_, par le coefficient de corrélation 
p (TA? + Ai = pri. 

Passons au cas continu. Examinons d’abord un système discret 

à très petit pas Af. (7.96) entraîne pour i —- oo 
_1+A'+A'p? rà 
PR oo pe 


(7.97) 


? 


puisque Pj4 = Po © Pj-1, 1- 
La résolution de l'équation quadratique (7.97) amène 


_ AHA'+A PH AH A+ PA) 4pAA TE 6 
BE 402 EE E 40% è (7.98) 


t 


On a pris dans le numérateur de (7.98) le signe plus parce que la 
condition 


{+A _ 144" , 1+4 1+A' ; pa (7.99) 


Po=Ph2Po—- sg 4e TA 7 40 40 
doit être vérifiée. 
De plus 
LEE (7.100) 
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Etant donné que pour At —+ 0 on peut écrire 
1—p (At) = 1—e-2aât Z 2a,At, (7.101) 


on obtient l'égalité approchée 


$ m2+2(L—a) At, (7.102) 
où 
(7.103) 
En utilisant (7.102), on trouve 
r 1 
D'une manière analogue avec de petits Af on calcule le facteur 
1 At 
20h Ps-t-1,1 Eu 4+LA ? SE 
où 
M, = 2H 2LAt LE (A2 (7.106) 
T0. (L+ a) 
a10?, | 1 


Si la valeur de So est finie et non nulle alors que Af—+0,. cette 
expression devient 


Mes (7.107) 
_ sSo(£+ai) nn 
Après avoir porté (7.104), (7.105) et (7.106) dans (7.94), on a 
us = u* ee (sAt + TAÏ) — 


pri, [y (sAt—vA#)—u (sAt—TAt—vAt)]. (7.108) 


> (1 TS 


on que l'observation de la condition (7.79) donne 
oT=p({tAÏ=p(tx). (7.109) 
Passons au cas continu. En posant Af-—>0, on a 
t 
u* (+) = 2% (84 va) —p (ex) Ma À 6-20 [y (t— 0) —u (4 — vx — 0)] d0 — 
ù 
_ t 
= 2% (LL Ta) —0 (tx) — L | e—E0 [y (é—0)—u (t—7t;; —0)} d0, 
ù 


(7.110) 


& 2] COMMANDE OPTIMALE D’UN SYSTÈME À RETARD PUR 391 


où 0 = v At. (7.110) montre que pour obtenir la commande optimale 
la différence entre y et la valeur de x retardée de +; doit être appli- 
quée à l'entrée d’une chaîne. composée d’un circuit apériodique à 
constante de temps T — + et à gain E, — + et d'un circuit sans 
inertie à gain E =p(tx) —e7%"H. Le schéma fonctionnel de 
l'organe de commande optimal OC représenté sur la figure 7.10 
comporte le modèle du système de fonction de transfert e?"H 
et le calculateur effectuant les ‘opérations suivantes sur les signaux 
de sortie du modèle et du système : a) mise en moyenne par le cir- 
cuit apériodique et b) prédiction statistique (anticipation de la 
valeur de la perturbation u dans Ty) 

par le bloc &2. En outre, OC doit PRE ae r 4 


— ( 
être muni d’un bloc de prédiction —— Uhr) Æ 
des valeurs de la consigne. Pour ue or 


un système de stabilisation ce bloc 


devient inutile puisque x* (4) — en ee ES 
— 2% (£ + Tx) = 2 Mes ER 

La comparaison des schémas a — 
{7.8,a et 7.10) montre que la struc- de 
ture de l'organe de commande 
optimal des systèmes à retard pur Fig 7.10. 


est la même que la perturbation u 

soit une variable ou une fonction temporelle aléatoire, seuls les 
paramètres de OC diffèrent. En l’absence de bruits dans la chaîne 
de réaction, on .a. S5 = 0, T = 0 et E, = 1, ïi.e. OC ne comporte 
plus de bloc: de ‘prise de la moyenne des valeurs mesurées du para- 
mêtre de sortie. 

On a intérêt à définir l'influence qu'exerce, dans le cas d’un OC 
optimal, la grandeur du retard pur 1 sur la variance 0% du para- 
mètre de sortie x (t) du système ou, ce qui revient au même, sur le 
risque élémentaire stable, puisque le système est linéaire et La fonc- 
tion dé pertes, quadratique. Supposons que la fonction d’autocor- 
rélation de la perturbation ait la forme (7.79) et x* (4) — const. 
En omettant les calculs intermédiaires, donnons l'expression défi- 
nitive de la variance du paramètre. de sortie : 


2 __ MSoËi 2er 2 (2— 1) 61 972047 | 
où = A et + où [1 — te ta], (7.111) 
de plus 
a10? 


LL 
CVs act Fan) Var ra" 9 


4. 


&0° 5 se 
T= (ét) É (7.113) 
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Pour un système sans bruits dans la chaîne de réaction, la varian- 
ce 0% peut s’écrire 
22 
où — 0? (Â—e"1"H), (7.114) 
La figure 7.11 matérialise la relation entre le rapport 0%/0% et 
le retard tx pour les cas suivants : 


So = 0 ; a; =0,5 (courbe 1), 
So—0,30,; a—0,5 (courbe 2), 
Sp = 0; a —=0,05 (courbe 3), 


S5—=0,250} ; ai —0,05 (courbe 4). 


D'après le diagramme, plus le retard pur est petit et la pente 
de la courbe de la fonction d'autocorrélation de Îa perturbation pu 
douce, plus la variance est faible. Notons que pour ty > 2/a, 


Fig. 7.11. 


l'introduction d’une réaction et la construction d’un système de 
régulation ne donnent aucun effet. L'apparition de la perturbation 
dans la chaîne de réaction compromet la régulation et accroît la 
variance du paramètre de sortie. Un organe de commande, autre que 
l'organe optimal, donne naturellement lieu à une variance 6% plus 
grande. 


$ 3. Commande avec facteurs indirects *) 


Considérons le schéma du système automatique de la figure 7.12. 
L'objet © est composé de deux parties Z et 2 soumises aux perturba- 
tions Z1 (u, #) et z: (À, &), fonction des paramètres aléatoires u et 
À. Désignons par f et w respectivement les variables intermédiaires 
non contrôlables et contrôlables. Le critère d’optimalité du pro- 
cessus est assujetti au signal de sortie x et à [a consigne x *. 

*) L'application des méthodes de la théorie de la commande duale à cer- 


tains problèmes de la commande optimale prévoyant l’utilisation des facteurs 
indirects est décrite dans [7.12-7.14]. 
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Pour certaines usines de l’industrie chimique, de la métallurgie 
et de la cimenterie, la sortie x n’est mesurable qu'aux instants dis- 
crets séparés par un grand intervalle. La cause en est les particula- 
rités du processus de fabrication ou l'absence des capteurs et des 
appareils de mesure automatique continue de nombreux paramètres 
technologiques importants. La qualité du produit fini est évaluée 


Fig. 7.12. 


notamment sur la base des données fournies par les analyses immé- 
diates effectuées en laboratoire. On contrôle automatiquement seule- 
ment certaines variables intermédiaires # (facteurs indirects) asso- 
ciées statistiquement au signal de sortie du système. Les para- 
mètres w et æ sont mesurés avec des erreurs aléatoires À’ et h. 
Les commandes x et u” sont également entachées de perturbations 
aléatoires g et g”, c'est-à-dire que les chaînes d'action G, G', H, H° 
entre l’organe de commande OC et le système © donnent lieu à des 
bruits. On considère que la combinaison des signaux et des bruits: 
dans les chaînes et l'opérateur du système sont connus. Tous les. 
éléments aléatoires et inconnus du système sont rapportés aux per- 
turbations z1 et 22. 

Comment utiliser l’information fournie par les mesures discrètes. 
très espacées dans le temps, comment la combiner à l'information 
continue et aux renseignements antérieurs sur le système ? Le pro- 
blème se résout par les méthodes de la théorie de la commande dua- 
le. Pour ne pas compliquer les calculs, nous allons examiner le cas. 
unidimensionnel. 

Considérons d’abord un système de commande simple (fig. 7.13). 
Toutes les variables sont observées à des instants discrets. 
0:12, , k, ..., n pris avec un intervalle Af (n étant fixé). 
Affectons de 1° indice 4 la valeur du signal au k-ième instant. 

La présence d’un facteur aléatoire 22 (À, 4) rend possible la des- 
cription statistique de la relation entre x et la variable intermé- 
diaire w. Le paramètre de sortie x n’est mesurable qu'aux instants 
0, T, 27t,..., T7 1, c'est-à-dire séparés de grands intervalles. 
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multiples de 7. Supposons que le système et les chaînes d'action 
et H’ sont sans mémoire. Les densités de probabilité a priori de 
tous les signaux aléatoires sont données. Le mode de combinaison 
des signaux et des bruits dans les chaînes d'action est connu, c’est-à- 
dire que les densités de probabilité conditionnelles P (d; [w,) et 
P (y, |x.) sont données. Les perturbations À et k’ sont indépendantes 
l’une de l’autre et leurs valeurs à des instants voisins sont des varia- 
bles indépendantes. Elles ne dépendent non plus ni de x ni de w 

11 faut définir une stratégie de l’organe de commande OC telle 
qu'elle minimise le risque total qui est la somme des espérances 


fige 7,13, 


mathématiques d’une certaine fonction de pertes W, (x, k, x,), le 
signal x* étant connu. 

D'après la méthode exposée au chapitré VI, écrivons l’expres- 
sion du risque élémentaire À, au k-ième pas. On a 


Ri=M{Wa|at} = | Wa (at, &, Le, À, ua) * 
> — — 
<(l, À: Up: dp_4 Uh..4) 


X PUR À, un, dus Una) dQ, (7.115) 


« 


OÙ | 
Walxé, k, TR (u, À, Un) == W» (x? , k, U, À, Un) 


est la fonction de pertes élémentaire au k-ième pas et 
— 
Un = (Us Uy, -.., Uk), 
+ 
dh-1 = (dos ds, ss 01) 


Yh-4 = (Yos Yis +. Yh41) 


des vecteurs temporels. 
Utilisons également la notation 


yi = (Yo: Yrs Yars - Ur) 
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& étant l'instant qui précède le k-ième, celui où l'on mesure le 
signal x. Naturellement, à est multiple de t et i <<k. 


Pour une densité de probabilité conjointe P (lu, À, Un, d. 
Yr_1) avec u et À indépendants on peut écrire : 
P(u, À, un, du_1, yu-) = P (u, À) P (ur, dus, Yale, À) = 
— P(u) P (à) P (ur, ds, yeslu, à). (7.116) 
D'après le théorème connu du calcul des probabilités 
P (un, des, Ya | u, À) = 
— P{ualu, À, Un, dus, Ya) P (xs, du, Va lu, à). (7.117) 


Mais dr, Un-1 et yn1 étant fixées, la densité de probabilité de ux 
me change pas si l’on fixe encore u et À, puisque uw: ne dépend 


de u et À que par D yY. Par conséquent, 


P (ux| pe, À Un-s dus Un) = P (ur | Us dun V5) =Th, (7.118) 


de plus [', est la stratégie. de l'organe de commande au k-ième pas. 
Transformons le deuxième facteur de la formule (7.117): 


P (un dis, Un [L, À) — P (os dy ÿolL; À) X 
X P (us, di, Yol M, À; Uo, do, yo) ... P (Ux-1, di4, 
ÿo | h; À, Ur, dr-2; Yo) P (ur, dr, Yr | h, À, Ur-1; 
dr-11 Yo) P (Urrir drtts Ur | M À, Ur, da: Yr) : .… (7.119) 


L'expression (7.119) comporte deux types de facteurs 
a) si jÆ0, t, 27, ... et O<j<k—1, où a 


P (u;, dj, yilu, À, Uj-4) dj, ÿh) = | 
= P(u;, djlu, À ju, dis, ym) à (y5—Ym) = 
= Puj[u, À, uj-1, dj4, Um) X 


=T;P(dilu, u;)Ô (y; —ym), (7.120) 


‘où m est la valeur maximale la plus proche de j tirée de la série 
OUT 00 8 MT; 
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b) si j 0, 7T, 27, ...,on a 
P (u;. dj, VFREUE À, Uj-1, dj-1, YS-x) = 
—? (u; | H, À, Uj_4;, d;_1, Yi) X 


x P (d;| LU. À, U;; dj-t Yÿ-*) P (y; | LU; À, Uj, d;, Yi x) — 
=T;P (d;lu,u;) P(y;lu, À, u;). (7.121) 


Les expressions (7.120) et (7.121) tiennent compte du fait que 


la densité de probabilité de u;, pour des u;, d;- 1» Um lixés. ne 
change pas si en plus on fixe um et À. Ensuite, pour un système 


sans inertie et u et u; fixés, d; ne dépend pas de À, U- 1: dj- 1 ya. 
D'une manière analogue, avec 10 T, 2H, ...,et pour des u, À, u; 


fixés, y; ne dépend pas de U_ 1 d;, y FA 
Compte tenu de (7.120) et (7. 130) “transformons l'expression 
(7.119) de la façon suivante : 


P (ur, dre Yna ll À) = 
k—1  k—1 
= Ur P@imu) Il 8m x 


FT, AT: 2 


3=0, %, . :. 


En portant (7.118) et (7.122) dans (7.117) et le résultat obtenu 
dans (7.116), on obtient 


R 
P (ue, À, Un, dus Un-1) = P (u) P @) [LT Î 2 Go u) * 


x nil 6 (ui — Um) _ P(yslu, À, u;). (7.123) 
PE se Are 
En portant (7.123) dans la formule du risque élémentaire (7.115) 
et en intégrant par rapport à y; avec jÆ0, 7, 21, ..., on a 
Re À Walt kw) P(u) P (A) X 


QC, À y dy mi 
k k—1 À 
X [IP [Il P(diluu) ET Pyilu Au; dQ. (7.124) 


3=0 j—=0 3=0, 7, ... 
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L'expression (7.124) diffère de la formule usuelle du risque élémen- 
taire : l'expression sous le signe somme contient le produit des den- 
sités de probabilité conditionnelles de y aux instants multiples de tv, 
c'est-à-dire qu'il existe une chaîne supplémentaire fournissant une 
information sur le système. Si cette chaîne n'existe pas, y; ne dé- 
pend pas de u, À, u; et l'expression (7.124) se transforme en la for- 
mule usuelle du risque élémentaire. 

Recherchons la stratégie optimale de l'organe de commande à 
partir de la condition de minimium du risque total en nr pas. [ntro- 
duisons les notations 


k 
Bx — IT [';, (7.125) 
= 
R—1 
Ch = Wa (2%, k, ui, À, ux) P (u) P(D [TE P(d;lu, u;) x 
QU, À) j3=0 


x II P;lu A u;)dQ. (7.126) 


30, Tue 


Le risque relatif au dernier pas 


Fe = [Lupin dO. (7.127) 


L 23 


— —} % 
Q(un, dn-1, ui) 


En appliquant la méthode exposée au chapitre VI on peut mon- 
trer que la stratégie de l'OC est pure alors que la commande opti- 
male u* se calcule en minimisant &, par rapport à w,. Pour l’avant- 
dernier pas on minimise le risque $,-1 = R, + R,_ par rapport 
à U,_1, de plus 


S'n-1 7 | l'h-1Bn-20n-1 dû + { Paln-1Bn-2@nr di — 
Q{un-1, an-2 V4) Q(un, FER ee 
+ | Phi dQ. (7.128) 


= + us 
Q(un-1, dn-2, y#.) 


Ici m est le nombre le plus grand (m << n — 1) de la série 0, t, 2t, … 
qui est le plus proche de (n — 1). 
Dans la formule (7.128) 


Yna=Qnu+ |  v140 (7.129) 


A4, _4e V5) 
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si y est mesuré au (7%—1{)-ième instant, c'est-à-dire si le nombre 
(n— 1) est multiple de +, et 


do À vé dQ (7.130} 
Q(dn-1) 
si (n—1) n'est pas multiple de +; en outre 
Yr 0 —0;{u}): (7.131 


_ En poursuivant on obtient pour y, les expressions analogues en 
fonction de &, et y#+1. On peut montrer que toutes les stratégies l, 
sont des fonctions à et que les valeurs optimales de u# s’obtiennent 
en minimisant y, par rapport à uw. La recherche de la commande 
optimale se ramène à des minimisations successives de Y»+1 par 
rapport à uz+, et à des intégrations par rapport à d, pour des k Æ 0, 
T, 2T, . . . et par rapport à d, et y, pour des # multiples de +. ne 

Ainsi les difficultés de calcul sont un peu plus grandes que de 
le cas d’un système ordinaire de commande duale, mais l’ordre des. 
calculs est toujours le même. 

Considérons un exemple relativement simple. Supposons qu'un: 
système soit décrit par les équations 


UR — + Ur, 
Th = À + Ur. 
La répartition des grandeurs u. À, hk’, h est normale, leurs varian- 


ces respectives sont 6%, 0%, 0, 0? et leurs espérances mathéma- 
tiques nulles. La fonction de pertes s'écrit 


Wn= (ri —2n) =(2i—u—À—ux). (7.133) 


Les densités de probabilité conditionnelles de d; et y; sont de 
la forme 


(7.132y 


do) 
P(dj[u u)=— VE exp{- En), (7.134} 


Fi — —}—u;)? 
P (y; À, U; a  ; {-U Eee st 7.135} 
(Y;{u, À, u;) où Var P ; A } 
Le système considéré est un système réductible et neutre. C’est 
pourquoi la commande optimale uf se définit en minimisant læ 
fonction &, par rapport à ur 


00 00 


2 22 
m6 Fe Ÿ ea arr {5 
U= — 00 À == — 00 
j R—1 i î 
— 2 > Gin) — 5 D Gy—u—à—u)} du dà, 
3=0 j=0, T,... 


(7.136) 
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où Cest une constante. En égalant la dérivée daz/dux à zéro, on 
obtient 


Ju J 7 497 
| PE nu , (7.137) 
ou 
To = Î { exp { — Lu? (5er + tr) + 
R—1 À 
À (dj—u;) | 2 (y5— u;j) k— 1 1 v 
TR ——_ — 
+ 2H 20? 20? 5% 2 (d; u3)" f 
DT or DR Te 
X EXP { À (5% dE x) +2 | 5 à (Yj—u;) —h Ex | — 


me D (i—u)) dudh, (7.138) 
F0, TT; 5 
en outre, s est le nombre de mesures de y réalisées en # pas. Les fonc- 


tions J', et J, se distinguent de J, par les facteurs u et À dans l’ex- 
pression sous le signe somme. Le calcul donne 


k—1 
î D; (dj—u;) 
# ; = 0 
ui = —A(%,s) D (yi—u;)—+ CPC RS 
FD T5 _s re (its) 
oc D 
(7.139) 
où 
1 i i 
AGDE — + (7140) 
at Ur LE (1+— =) 
14 7.141) 
—= Fo ( . } 


Considérons quelques cas particuliers. 

Cas 1. Supposons que la perturbation u est inexistante, c’est-à- 
dire que u = 0, oi, = 

La formule (7.139) devient alors une formule ordinaire de Îa 


commande duale d’un système sans inertie 
î 


_ D (Wi—u) 
UE = af — (7.142) 
R 


où +s 
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En effet, dans ce cas, la mesure de la grandeur d n'apporte aucune 
information nouvelle sur le système. 

Cas 2. Soit À — 0 et 0? — 0. Dans ces conditions la commande 
optimale se trouve de la façon suivante: 


k—1 À 
> (dj — u;j) > (yj—u;j) 
j=0 J=0, T3 
UR = XÈ — où FAUTS 7 oË - 2 - , (7.143) 
où 874 6 + + 6? k 


Si les variances des perturbations dans les deux chaînes Æ et {4° 
sont égales, on a 


D Gi-up+ D (i—u) 
u* = — ES — _— | (7.144) 
CU 


= 


Ce cas est équivalent à celui où au lieu de # — 1 un a réalisé 
k + s — 1 pas, puisque pour estimer la perturbation u on prend la 
moyenne de Æ + s et non de # mesures. 

Généralisons le résultat obtenu aux processus markoviens u, et 
À et aux systèmes à mémoire. Pour rendre l’exposé plus simple, 
bornons-nous au cas unidimensionnel. Dans l’ensemble le problé- 
me reste le même, mais dans la formule du risque il faut remplacer 
les densités de probabilité P (u) et P (À) par les densités de proba- 


bilité conjointes P (u3) et P (43). On a 


” k 

P (lux) = P (lo) I] ? (| b-4)s (7.145) 
ù k 

P (A4) = P (do) nel P (h;|A34), (7.146) 


— + 

où x et À sont les vecteurs temporels. N'oublions pas non plus 
que pour les systèmes à mémoire les densités de probabilité condi- 
tionnelles dx et y: dépendent dans le cas _générai de tous les 


signaux d'entrée appliqués, c’est-à-dire de Lx, Un et Lx, re Un 
respectivement. La formule du risque (7.124) devient alors 


Ra => Î Wa (xt, #, Un, Âas Un) P (o) P (lo) X 


+ 7} —} — + 
Qu, ne dp_4r Vi) 


k kR—1 
TL LP Giles. ) PGA TX:)] [IT II 2 (d; Lis uj) X 
7=1 … 3=0 3=0 


? 


X JT Plus hu; d@. (7A47) 


j=0, 7, .. 
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Dans l'ensemble, la recherche de la commande optimale reste 
la même, l'expression de «&, se mettant dans ce cas sous la forme 


AR — À We (ts, k, Un, ds ur) P (Lo) P (0) X 


+ — 


Rk R—1 
X [EL LP Quiluia) P Gill IT P (dilus, uj) x 
4 j=0 


X Il P (y;lh;, À;, U ;) d$à. (7.148) 


3=0, T, ‘…. 


Les résultats qui viennent d'être obtenus pour un système uni- 
dimensionnel peuvent être étendus aux systèmes à plusieurs entrées 
et sorties. 

Revenons au schéma 7.12 en considérant que le système et les 
chaînes d'action sont sans mémoire. La méthode ci-dessus conduit 
à la formule du risque élémentaire au k£-ième pas 


Pi = L. WaP (u) P (à) P (ox jux) P (vé[ui) 
Qu, À ps U he ps Dhs 0) 
k— 1 î R 

x [[ PG;lu, j, “) IL P{y;lu, À, j,u;, ui) [[T;d@. (7.149) 
j=0 j=0 


On peut montrer que un. ce cas-là également la stratégie optimale 
est pure et que les fonctions de décision l', doivent être des fonc- 


tions Ô, c’est-à-dire 
Ti P (Unluns, uit, des V5, 2) = 0(Ua—U}), (7.150) 
où Un = (ur, ux) est le vecteur de l'espace à deux dimensions. 


La recherche de la commande optimale VF —U; (una UE 1, d. je 
y*, x*) consiste, comme il est d'usage dans la théorie de la commande 
optimale, à réaliser une série de minimisations et d'’intégrations 
de certaines fonctions, &x se mettant sous la forme 


Cn — On (Un-1; UE 1, dt y}, z*) = 
- | WaP (u) P (à) P (wa lux) P (vi lui) X 


QU, À, GE vR) 


j—=0 3—=0, T, CE 
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- La méthode exposée permet d'effectuer la synthèse d’un-organe 
de.commande optimal disposant d’une information. incomplète sur 
le système et utilisant certaines variables intermédiaires liées sta- 
tistiquement au signal de sortie. Pendant le fonctionnement, cette 
relation est précisée par la mésure périodique du signal. de sortie. 
Parfois on dégage sans peine dans l'organe de commande OC la 
partie A1 qui assure la commande d’après une variable intermédiai- 
re et la partie AZ à réponse plus lente, qui reçoit l'information sur 
le signal de sortie et agit en conséquence sur la partie A. L'auteur 


Fig. 1:19: 


de [7.14] a trouvé, notamment, une structure optimale pour le 
système de commaïñde à retard pur. Le schéma qu il donne peut 
être ramené à celui représenté sur la figure 7.14. est ici un addition- 
peur sans inertie, A7 comporte .un filtre F du premier ordre aux 
pararhètres variables” qui changent par saut après l'introduction 
dans A2 de la valeur suivante de y. 

Cette approche permet de résoudre le problème d’un organe de 
commande à combinaison optimale de l'information fournie sans 
retärd mais avec d'importantes erreurs aléatoires et de l’informa- 
tion obtenue avec une meilleure précision. maïs transmise avec un 
retard [7.44]. | 

Sn do ‘que le signal de sortie x (fig. 7.15) soit accessible à 
l’obsérvation à n'importe quel instant, c'est-à-dire t — 1. La per- 
turbation appliquée au système est un processus markovien, l' objet 
lui-même donnant lieu à'un retard de parcours vx. Pour un retard 
important, il se peut que le système de commande n'assure pas la 
précision requise du paramètre de sortie [7:91, même lorsque la me- 
sure de x est-exacte (c’est-à-dire k — 0). On peut alors améliorer la 
régulation en utilisant pout la commande, outre la grandeur de 
sortie, la grandeur intermédiaire d associée à x (statistiquement, 
grâce à la présence de la perturbation h") et dont le retard de par- 
cours nz est sensiblement plus faible. Pour simplifier, nous allons 
considérer dans ce qui suit que la pefturbation z2 (À) est inexistante. 


$ 3] _ COMMANDE AVEC FACTEURS INDIRECTS 403 


Soient les équations du système 
Lis = Uk + Us van Ur + Lx, (7.152) 


où la perturbation x est un processus gaussien discret de fonction 
de corrélation normée de la forme ei. 


p (B)= ea (<a < œ) (7.153) 


Le processus de ce type est markovien. La consigne té = xt — 
— const. La fonction de pertes est quadratique. La commande opti- 
male est définie par la condition du minimum de la fonction +, 
par rapport à w:, c’est-à-dire 
| k—1 


Ch +v = | (e*—ux— pr) P (x) [T IP. (I in, Lj-n) X 
QU) + 
| P (y Ujx)l d@. (7.154) 
En posant 
dou + Le 
dur 


dés transformations. peu ‘compliquées amènent 


( = a ve. tv gs part her (7:155) 
| é Eh y XR+v 1 
où 
k—-n—1 
Ah+y = | Un-n-1P (Lu) Il P (Uj|U;-1) X 
QU _ 1-0 S de. 
RAA 
X [TP (difhi-n u5-n) P (y5lh;-v, u;-,)] d@. (7.156) 
j=0 


La grandeur &;,, diffère de «,, par l'absence du facteur un 
dans l'expression sous le signe somme: 

Soient u, À’ et À les perturbations normales d'espérances mathé- 
matiques nulles et de” variances Os 0%, 03. De plus 


{ 
PAU RSS 0 DEEE I à (7.157) 


La fonction ak+v Se, définit de la façon suivante : 


00 00 k—n—1 
e Uÿ | 
RE Hs CD À DU — GET GE) D (y —pu;1)— 
LR HNO ES = 


26% 
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RkR—n- 1 


{ 
— 20 D (diin— Hu) — 
j—0 
i R—v-1 
7 203 > Go —b—u)} dho; +.) dUr-n-1, (7.158) 
j=0 


où C est un facteur constant qui n'intervient pas dans le résultat 
final. {ntroduisons les notations 


Ci=Yjiv—U;, ej== din —Uj, (7.159) 
0? oc? G 
h k 


2 
h,  r—PfM, (7160) 


> ? 92 
0? 20? 


À — 


Après les calculs réalisés d'après Ja procédure exposée au & 7.2, 
on obtient 


(N 
ur — «* — 0" es ; | Azur a ER 


Fr n—2; 1 


pe. — | Asen-v + dar E Env Agen + -.. 


R- 
+5 (bo + Auecl +. |: (7.161) 


On peut montrer que tous les facteurs r/P ;, de (7.161) sont infé- 
rieurs à l'unité; de plus les P ;, se calculent d’après les formules de 
récurrence 


1 
Po = 20? (1+ A; + A), 


1 2 
Pi or (+ A++ psp , 
avec j=4, 2, .., k—v—{, (7.162) 


1 2, 
Pa 5 (Ai+ A2 + ps) — p— 
avec j—k—v, ..., k—n—2, 


P _ A4 + Ao _ rè 
h-n-4 20% Phen-2, Î 


L'étude d’un système en régime stationnaire et l’extrapolation 
des résultats obtenus au cas continu (Af —0) est d'un intérêt cer- 
tain. Supposons que Le bruit hk est inexistant, alors que.h” est un 
bruit blanc de densité spectrale 


,_ 


$ 4] SYSTÈMES D’AUTO-APPRENTISSAGE ET COMMANDE DUALE 405 


(7.161) permet de tirer 


Uk — L* — 1 DIR PR Per . X 
X [én-nat ee + — 5— ên | ee ]—-pt CiPavs, (7.163) 


où C, est le coefficient qui dépend des caractéristiques statistiques 
des signaux aléatoires et de la valeur du retard. 

Pour obtenir la commande optimale u* (t) dans le cas continu 
on recourt à la formule donnée par [7.14]: 


VA-'H 


u* (£) = 2*—p (nx) C1L | [dE — Va +na + 0)—u (vx +0)] X 
(4) 


X sh LE dû — 6 (nx) C1[y ()—u(t—va)l, (7.164) 


L'organe de commande optimal (fig. 7.15) comporte le filtre F, 
l'amplificateur sans inertie £: à gain £e << 1 et les blocs de retard de 
nz et de vx. En remplaçant le filtre par un circuit inertiel on obtient 
un système de commande voisin de l’optimal. 


$ 4. Systèmes d’auto-apprentissage et commande 
duale 


La figure (7.16) représente le schéma fonctionnel d’un système 
auto-adaptatif (7.15, 7.161. L'objet commandé B de sortie x (dans 


le cas général, x est le vecteur de coordonnées x,, .. ., x.) forme 
avec l’organe de commande À, le système de commande > principal. 


Dans le cas général, le système B subit la commande u et la per- 
turbation aléatoire z. La consigne z* *, qui fixe les valeurs de x à 


atteindre à la sortie, et la grandeur x elle-même, canalisée par la 
chaîne de réaction, sont fournies à l’entrée de l’organe de comman- 
de À. 

Il se peut que ia commande par À, ne soit pas optimale, soit 
parce que l'information sur le système commandé PB est incomplète, 
soit parce qu'on n'a pas muni À, de moyens optimaux de traitement 
de cette information. Dans les systèmes auto-adaptatifs, l'organe de 
commande comprend, en plus de la partie À;, la partie 4°. Cette 
dernière peut être conçue sous la forme d’un organe autonome. Sou- 
vent les parties À, et À: sont physiquement inséparables; elles 
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peuvent être, par exemple, les parties différentés d’un mênmie pro- 
gramme. Toutefois, dans le schéma fonctionnel il est avantageux de 
les représenter comme des organes isolés. En exerçant sur À: 
l'action w, la partie A2 tend à modifier l'algorithme de À; pour 
rapporcher le système 4;:.— B de l’optimal. Dans certains cas on 
peut mesurer les perturbations z et canaliser le résultat vers les 
parties À, et. A. Ce cas ne nous intéresse pourtant pas. | 
La particularité essentielle des systèmes d'auto-apprentissage, 
üne sous-classe des systèmes auto-adaptatifs, est que le processus 


Fig. 7.16. Fig. 7.17. 


d'amélioration de l'algorithme de la partie A1, de l'« éducation » 
de cet organe, est transitoire, alors que dans d’autres types de systè- 
mes auto-adaptatifs c'est un processus permanent d'adaptation de la 
partie À, aux nouvelles valeurs des caractéristiques de l'objet com- 
mandé P. 

La division, ne serait-ce qu'imaginaire, de l'organe de commande 
en parties À, et À, présente un avantage lorsque À: modifie assez 
lentement l'algorithme de A; à mesure de l'accumulation de l'in- 
formation sur le fonctionnement du système. Par conséquent, À, et 
A, se distinguent foncièrement par leurs objectifs ‘et leurs rythmes. 
La généralisation du schéma 7.16 permet d'imaginer une certaine 
hiérarchie d'organes de commande À4:, A2, A3, ... dans laquelle 
chaque élément suivant agit sur le précédent en accumulant une 
information toujours plus générale sur le fonctionnement du systè- 
me. C’est pourquoi dans de tels systèmes, les rythmes ralentissent 
avec l'ascension hiérarchique des organes. 

La théorie statistique de la synthèse des systèmes optimaux 
qui sont dans un certain sens des systèmes d’auto-apprentissage ne 
s’appliquait jusqu à présent que dans l'identification des images 
[7.17 à 7.19] et dans les jeux des automates [7.20]. On a établi ainsi 
certains algorithmes optimaux de l'apprentissage. Des algorithmes 
optimaux pour des types plus complexes de systèmes d’auto-appren- 
tissage en boucle fermée peuvent s’obtenir en recourant aux métho- 
des de la théorie de la commande duale. 
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Le schéma fonctionnel 7.17 représente un. système d’auto-appren- 
tissage que nous allons étudier et dont les parties À, et A: forment 
encore un seul organe À. Toutes les AE ne sont envisagées 
qu'à des instants discrets £ = 0, 1, ..., 8, .- . . Une grandeur quel- 
conque qui se manifeste à 1: instant s est affectée dé :l’indice 
s(u,,v,, ts, ete.). La commande v, est amenée au système B par la 
chaîne sans inertie G soumise à un bruit aléatoire g,. On connaît la 
loi associant la sortie v, de la chaîne aux entrées g, et u,. La sortie 
zx, du système B est également canalisée vers l’ organe de commande 
par la chaîne sans inertie # de bruit h;. La.sortie y, de cette chaîne 
est considérée comme une fonction connue de ses entrées À, et xs. 
La consigne t*, connue, est amenée directement à l'entrée de À. Le 
problème plus complexe. ‘de transmission: de ze par une chaîne avec 
des perturbations peut être étudié de même qu’au $ 3 du chapitre V. 

Pour simplifier, supposons que le système B soit sans inertie. 
La généralisation aux systèmes avec inertie peut être effectuée par 
les méthodes _décrites au _S$ 4 du chapitre VI. Le système subit la 


perturbation Zs = L, où m est généralement un vecteur. La relation 
entre la sortie x, du système B et les entrées v, et u est 

=. Te. F (us u). (7.165) 

La perturbation u est un vecteur aléatoire de densité de proba- 


bilité a priori P, (ula) dépendant d'un certain vecteur des paramè- 
tres à de coordonnées Bis + + +» Am: Supposons que les paramètres 
de la loi de répartition P, sont inconnus avant le lancement du 
système. On ne connaît que leur densité de probabilité a priori 
conjointe Qo (&ys - . -; Am) — Go (à). Supposons ensuite que les 
valeurs de u diffèrent d’un cycle à l’autre des processus de la même 
série, mais que les paramètres a; aïent certaines valeurs constantes 
bien qu'inconnues a priori. La connaissance de l'estimation appro- 
chée de ces paramètres contribue à l'amélioration du processus de 
commande. Plus le nombre de cycles de la série est grand, plus les 
estimations des paramètres sont précises, ce qui permet également 


de mieux estimer la perturbation u. 
Dans divers cycles (j = 1, , N) de Ta même série, la gran- 


deur u peut prendre des valeurs différentes His Master iae co ln 
que nous considérons comme des échantillons dépendants d’une 


même population de même valeur de vecteur a. Dans les séries diffé- 


rentes, le vecteur a peut être différent, il constitue alors une varia- 
ble aléatoire de densité de probabilité g, (a). C’est pourquoi la 


densité a priori P, (u)s “obtient par la mise en moyenne de P, (u |[a) 
par rapport au vecteur a pour différentes séries d'expériences : 


Po(u)= | Poil a) g (a) de. (7.166) 
Q(a) 
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Tci Q (a) est le domaine de variation du vecteur a et dQ son élé- 
mént infiniment petit. 

Nous considérons que les perturbations u, g, et k, sont indépen- 
dantes; g, de même que À, sont supposées être des suites des va- 
riables indépendantes de densité de probabilité P (gs) et P(hR vs) 
respectivement. 

Supposons que chaque série donne lieu à N cycles de commande, 
chaque cycle étant composé de (n + 4) pas qui sont des instants 
discrets £ — 0, 1, ..., nr (chaque cycle a sa numération de #). N et 
n sont fixés. Introduisons la fonction de pertes élémentaire pour le 
t-ième pas du j-ième cycle: 


Wir Wi(s, tj, ti) (7.167) 


Les fonctions W, et z£ aux instants & — s sont les mêmes pour 
tous les cycles. On désigne par x; la valeur de x au s-ième pas du 
j-ième cycle. 

Considérons que le système optimal est tel qu'il. minimise le 
risque moyen À 


N On 
R=M{W}=M{2 DO Wi(s, ze, a*)} = min. (7.168) 
Ë 1— 80 


Dans ces conditions, les commandes u,; doivent appartenir à un 
certain domaine admissible Q (u)- 

Le problème consiste à rechercher la stratégie optimale de l’orga- 
ne de commande À qui peut en général être aléatoire et qui consti- 
tue une densité conditionnelle l';; de la grandeur v,, au s-ième pas 
du k-ième cycle. l';, peut être fonction des variables appliquées dans 
le passé à l'entrée de À. x* étant considérée connue, on peut ne pas 
l’expliciter. Par conséquent, l',; dépend généralement de y;; et 


u;;(i=0,...,n; j —1,..., k —1), ainsi que de y; et ur 
avec é — 0, ..., s — 1. Introduisons les vecteurs variables 
Usj — (Uoÿ, ….) Us); Ysj — (Yo: Fu Ysi)s Ts j — (toi, sa Tsj}: (7.169) 


— 


ainsi que les matrices de ces vecteurs, us; par exemple: 


A CL 
Usj Ugfr Less Us | 
— 
_ Us, j-4 Uo, j-1, +++, Us, j_4 
Usj==| = |. : (7.170) 
01» 3 s1 
Less 


—+ eS 
Dans le cas général, l',;, dépend alors des matrices y, ,p-1, Un, n-1t 
qui contiennent les variables correspondantes des cycles antiérieurs 
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> — ei 
de la série considérée, ainsi que des vecteurs ys_1, 8 et Us_1, # qui 
contiennent les valeurs de ces mêmes variables aux pas antérieurs 
du cycle considéré : 


— — 


Da Don tuer | Uetts Watts Vns has Un, ka). (7.171) 


On demande de rechercher les fonctions optimales l';x (s — 
= 0,...,n; k—=1,..., N) qui minimisent le risque moyen À. 
l' étant la densité de probabilité, | 


elle doit être une fonction non né- b 
gative vérifiant la condition ri, alé) 
— Op 
L'ér (Use) ad — 1. (7.172) 


(up) 


Cette position du problème est 
une certaine généralisation de cer- 
tains problèmes de la théorie de 
la commande duale dans lesquels 
la densité de probabilité a priori a) b) 
de u était considérée comme con- 
nue. Dans la théorie des systèmes 
auto-adaptatifs on a souvent affai- 
re à des situations à forte indétermination [2.88]. On peut étu- 
dier ces situations par des voies différentes, en appliquant, par 
exemple, les critères du minimax. Le mode indiqué ci-dessus d’« ag- 


gravation » de l’indétermination en renonçant à fixer le vecteur a et 


à donner la densité g, (a) constitue peut-être [la généralisation la 
plus naturelle de la méthode bayesienne fort utilisée dans la statis- 
tique mathématique. L'interprétation immédiate en est donnée par 


un schéma équivalent du système B (fig. 7.18). 4 est ici une sortie 
du bloc à mécanisme aléatoire (ou à entrée supplémentaire sous la 
forme d'une variable représentée en pointillé) munie de la loi 


P, (ur | a) (fig. 7.18, a). La grandeur a de densité de probabilité a 


priori go (a) donnée est appliquée à l'entrée du bloc. L’« aggrava- 
tion » ultérieure de l’indétermination peut s’obtenir en adjoignant 
encore un bloc (fig. 7.18, b). La grandeur a, peut constituer la sortie 
du bloc à mécanisme aléatoire muni de la Loi P, (a,|b). La variable 
b de densité de probabilité a priori donnée est appliquée à l'entrée 
de ce bloc. Chaque nouveau bloc supplémentaire augmente l’indé- 
termination. 

Déduisons d’abord l’expression du risque élémentaire condition- 
nel r,A au s-ième pas du £-ième cycle en entendant par r,4 l’espé- 
rance mathématique de la fonction de pertes élémentaire W,4, la 
« préhistoire » des entrées de l'organe de commande À notée 7,4, 8 


PB Axl a) | y 


| JA) 


Fig. 7.18. 
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étant dorinée : 


+ eut 


Lei aan tea) (7.173) 
On obtient l'expression 
ru = M{Wallesn}= | Was, zu) P (an Lo») = 
|  UXsz) 
= À Wa(s, Zsr) P (ten | Uk, Usr) Psn (Ur) X 
spl Usx) 
X L'on (uen | Los, x) 4. (7.474) 


Désignons par P,2 (lux) la densité de probabilité a posteriori 
Pox Qu) = P (ur | 3-1, 2). (7.475) 


Au lieu de uz introduisons d'abord la matrice ur des vecteurs 


U; (j=1,...,4k4). Ecrivons la densité de probabilité conjointe de Lx 
et de a: 


. … ” . — __E __— 
P (ur, a)—qo(a) P (txfa)—go(a) I] Potsla) (7476) 


(cette dernière transformation étant vérifiée en vertu de l’indépen- 
dance des u; pour différents j), la densité de probabilité a priori 
s'écrit alors 
: : k 
PoQu)= | PQ, a)40= | ga) II Pole) 4. (7.177) 
Q(G) Q(a) j=1 
La densité de probabilité{ a posteriori de “Ur s'obtient à partir 
de la formule de Bayes | 


mn _ P(Ta-4, à |Ux) Po (x) 

Plane pr ; LE 
où P(17s:,r) est la densité de probabilité a priori de Z::,1. En 
portant (7.177) dans (7.178) on obtient l'expression de la densité 
de probabilité à posteriori (7.175) du vecteur mu : 


Pur] Zs, x) = À P (pa | Zs-1, n) dQ = 
(Ur 1) 


R re 
-  [  c©[NA@ia] $5r do (7179 


= = = è P (Ts-1, h) 
A0, -.., Mp_y 0) us, 
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Développons HÉRRIeOn P es k L Lx) sous ‘lé Signe somme: 
P(Ts-4, x D) — P (on. R=249 Ya. k- ss Vs 4 hs Us- 1 s…) ,b)= 
= P (ÿnas Uni |) P > (Una Una | Yrs 7e Lui, Le) X - 
. X P (ÿni, nn. 4 Un, j-49 Loan LIN 


+... X P (ÿn, h—1)3 Un. lun kR—2) Un, h-25 Lu, re Lun 1) X 


+ —+ 


x P Ge R Fe R Yn,h-1s Un, k-1» bu .. x). (7.180) 
Le facteur type (sauf le dernier) s'écrit alors 


— + 
P (Yo; Uijs + es Unjs Uojs Utÿs °c...) Unj | Un, j-1 Un, j-1» 
us es > mA = = 
Bts ce, M) = P (os, Uoÿl Un. j4, Un, 4 Mu +, Hj X 
né —_ = = ne 
X P (Yi Uij | Yoi: Uoÿs Yn, j-1s Un, j-4s Mis 5) P (Ya, Ua | Yi 
+ pu 4 Ee = — 
Uijs Uni js Un, j-4s Ms ces Wj) ce. P (Uni, Unj|Yn-1, j 
— —_ = e _ 
Un-1, Jo Un, j-1» Un, j-1; Li; *.., H;). (7.181) 


À son tour le facteur type de la dernière expression peut se 
mettre sous la forme 


= ax _ = 
P (yi;, Uij| Ya, j, Uÿ-1, js Un, j-1r Un, j-19 Mis LU ;) — 


= P Qui] Yi fs Wie Un, jrs Un, ja) P Gisluis, Li) = 
=Ti;eP (yislui;, nu). (7.182) 
L' expression est vraie parce que la densité de probabilité de y:; 
est complètement définie en fixant u;; 5 et L; si ne change pas avec 


une information supplémentaire sur Yi. is — PR js 
Mas ce, Mine 

Ainsi 

+ = A ss 


P (Un Unj [Une j-1 Un, j-415 Lu, ss je 
= (Î] ra {Il P (yij|Uiÿ, u;)}. (7.183) 


Un raisonnement analogue nie l'expression 


> La 


P(ysun, LR ÿne00 Un, h-1; bu, vess x) = 


= s—1 
= {IT Tu} EI P Guluin. an}. (7.184 


\ 
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(7.182)-(7.184) entraînent 


P(Is.n|ux) = P (yn. R-1) TRS Ys-1.h, Us-1, à | Ps ‘9 Ux) — 


R—1 n R =. 
— [l {I l';;) I P (yi;| Uij; h;)} X 


s—1 s—1 
X QU Lin) {[] P (yinluin, Hx)}. (7.185) 


En portant (7.185) dans (7.179) et (7.179) dans (7.174) on tombe 
sur la formule de r,,. En prenant la moyenne de r,4, sur l’ensemble 
des expériences nous obtenons l'expression de RAR: 
Rsr — rshP (Zs-1,n) d£è — 


QU 4, p) 


_ | W(s, ton) X. 
=. Es = —+ + 
2 Hps Er Xsh Un,k-1 Un, k-1r Vs_1,h» Usk) 


_h  - k—1 n 
X P (&sn | Un, Wen) qo (a) LI] P;(u;|a)l IL {QI T';;) X 


n S s—1 
x [] P(yislus, p)} (IL T'in)- [LP (yinl win, Un) dQ. (7.186) 


Désignons par 041 l’expression 


Se. Luce 
OR-1 (&, Yn, hu1}; Un, h-1) 


k—1 k—1 ñ 
= { «GI 2 @la].II {IP Euh H)} 2. (7187 
= èr i 
Q (Up _1) ° 


3— i—0 
Il vient 


Rs — 


À W: (s, Lsh) X 
nt + RE: 
(a, My: che Ye_1, Ro Uhr Un, h-11 Un, k-1) 
j=hk-1,i=n 


X P (sn [is ua) Poux la)pans À JL Ti) x 


j=1, i—0 
s s—1 


X (TI Tux) LI P Gin uins ln) dQ. (7.188) 


i=0 i=0 
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L'expression de px_, contient l'information fournie par les 
observations réalisées pendant les cycles précédents. Notons 


P;(@ Un. is Un, ) — | Po(u;|a)- [I Ptyislus, 5) de. (7.189) 
XL ;) 10 
On en tire 
= ce S R— 1 dr e$ _ 
Pa (a, Yn.k-1 Un, k-1) = Go(&) al Pi(a; Yniÿ, Unj). (7.190) 


On peut montrer que la grandeur p,_, est proportionnelle à la 
densité de probabilité a posteriori P (a]|15,x:_) et contient une 
information plus riche sur le vecteur inconnu des paramètres a. 

Dans le cas particulier où la densité a priori u; ne dépend pas 
de a, il est aisé de montrer que tout le processus se décompose en 
cycles indépendants. Toutefois, si la densité u; dépend de à, alors, 
comme on le montre dans ce qui suit, le comportement optimal au 
j-ième cycle est défini par l’information obtenue aux cycles anté- 
rieurs tout en tenant compte des processus éventuels des cycles 
ultérieurs. 

Procédons maintenant au choix d’une stratégie optimale. 

Considérons d’abord le risque élémentaire R,, au dernier pas 
(t — n) du dernier cycle (j — N). Posons 


3=N-1i, in n— 1 
Bu [TO Di, Brun [| lin (7.191) 
3—=4, i—0 i—0 
Il vient 
( 
Ron = | Wa (n, Tnw) X 


(a, Mas San Un_1, N° UnN°? Un, N-1 Un, N° 


X P(&nn | My; Unn) Po(un | a) Px-1Bn-1Bn-1. Il P (yin | Uins Un) da. 


(7.192) 
Soit 
nn (Yn-1, N° He bn pie Un, NA) — | Wa (n, Znx) X 


Q (a, Lan Æn n) 
X P (tan | Unn: Un)°Po (uw | 2) 0x1 (a, TA Us. NA) X 


n-1 
X [T P(ixluin by) 4. (7.198) 


414 APPLICATIONS DE LA THÉORIE DE LA COMMANDE DUALE ÎCH. VI 


On en tire 
Rain = | Pa-1"Bn-1. n'Onnlnn dQ — 
Le TR —- me 
8 Gn_1, N° UnNr Un, N-t Un, N-1) 
S Ï Bw-1-Bn-1m'nnx d0, (7.194) 
es — _ me 
N G(Yn_4,N7 Un_1,N Un, N-1 Un, N—1) 
ou 
nv = | Gnnlnn dQ2. (7.195) 
Q (un) 


nn HADRC Ron. il faut choisir u,, telle que, quels. que 


A 
soient Yn- 1, N Un ons Unen-n Un,n-1 la fonction %:7 ait une 
valeur minimale. | 

On en tire la stratégie optimale l',nw. La valeur optimale u?;, 
s'obtient en minimisant œ,n par rapport à w,n. Dans ces condi- 
tions, La commande optimale u*,.devient fonction de l'information 
fournie antérieurement à l'organe de commande À 

— £ — = _ Pre nr. 
UnN = UnN (Yn-1,N: Un-1, nr Un, N-1 Un, N-1); (7.196) 
de plus 


a%y = min (tnn) = Ann (in). (7.197) 
UnN 
En rétrogradant pas à. pas dans le dernier cycle, puis en passant 
à l’avant-dernier cycle etc., on aboutit à la stratégie optimale obte- 
nue de la façon suivante: ‘introduisons la fonction 


= —+ + 


Lsh — Ask (Un. k1, Un, h-1s Ys-1,ks Us-1, x) nn 
— À W. ($, Tsh) P (Zsh | Un. Ush) P, (Eur | a) X 
Q (a, eh? fx) 
Cu s— 1 


X Pn-1" il P(yinluir, a) dQ. (7.198) 


Introduisons également la fonction Ys«:, de plus Van = Enw et 
la valeur minimale de y.::se note y. L'expression de sa S obtient 
à partir des relations de récurrence : 


pat | vhirdt  (O<s<n, 1<H<N), (7199) 


Q(YeR) 


Vnk = Anh + { | Vô. a41 dQ (&kLN). 


Q(Y,, à) 
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ba stratégie optimale élémentaire ['$, est une stratégie pure, 
c'est-à-dire qu'elle a la forme d’une fonction Ô 


T6 (us —u), (7.200) 


où uÿ résulte de la minimisation de ÿ«x par rapport à usk 


Vsh — ITS Yshk — (Vot)u pou, ‘ (7.201) 
Evidemment, pour .s>0, 1<Ck<N on a la relation 
Un = USh Ys-4. ko R Yn. k—1) Un : h_1); (7.202} 
et pour 4=1, 0O<s<n 
si = Ust (Ys-1,1» Us-1, 1). (7.203} 


Enfin pour # = 1, s — 0, la grandeur uÿ , se calcule à partir des 
considérations a priori. [Il faut alors poser 


Il P(islus, us) — 1. 


La stratégie définie par les conditions (7.198)-(7. 208) est typi- 
que pour la commande duale. En effet, la vitesse d'apprentissage 


caractérisée par la densité de probabilité a posteriori P ,4 (u) dépend 
des stratégies élémentaires l';; utili- 

sées par l'organe de commande. C'est A 
pourquoi, dans le cas général, la |  — 
grandeur u*, est définie non seulement 
par la condition de minimum de R,- 
mais encore par l'influence exercée 
par la commande u*, sur la vitesse 
d'apprentissage et, par conséquent, 
sur les valeurs futures des risques 
élémentaires. 

Examinons un exemple illustrant 
la théorie qui vient d'être décrite. 
Pour rendre ’exposé plus simple, 
étudions le système neutre représenté sur la figure 7.19. 

L'équation du système B S écrit | 


an = — Ur + Usk- (7.204) 
L'équation de la chaîne d’ action À est la suivante 
Ysh — Lsh + her: (7.205) 


Supposons que la consigne za Soit connue d'avance. La fonction 
de pertes élémentaire. s'écrit alors 


Win — (ah — ru), (7.206) 
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his, pr et a étant des grandeurs gaussiennes de densité de proba- 
bilité 


 : en | 
P(ha)= TE exp { 5 d 
LAND 
Po (ua | a) = VE xp {_ A), U (7.207) 


go (a) — VE EXP {et | 


L'effet ani est grand si 0, > 0, et il en résulte que 
la densité a priori Po (ux) (cf. (7.166)) est bien plus « étalée » sur 
de différentes valeurs possibles que la densité a priori dans le cas 
d'un grand nombre de cycles lorsque la valeur de a est précisée. 

Etant donné que 


Yiy = ti; + hi;=ui;+u;+hi;, (7.208) 


ik vient 
pi las) À —_ exp {Wii (7.209) 
On V2n 26? 


Le calcul d'après les formules (7,189) et (7.190) conduit 
à l'expression 


Pas = Ba-1 Xp {— ra? + cn_10 + dus}, (7.210) 


où B;:-, est une certaine grandeur dépendant de k, et 


{ k—1 
On — 5 604 ” 
nt 
"0 : 
EE # ÊGaOR 2 C), 1 (7.211) 
S S | 
dp-1 in er PRE TE À (2 ) —— re | 
Ÿ, >; et O0; s'expriment ici par les égalités 
__ 4 n +1 
| 20} + 20h 
2j 2 ii ui), > (Yi — ui). (7.212) 


Les coefficients b, se calculent pour chaque valeur de k; ils ne 
dépendent pas des observations. En même temps les c, et d, dé- 
pendent des observations réalisées par l’organe de commande À. 
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Les c4 cet dy peuvent se calculer à partir de c4_1 et .d,_1 d’après les 
formules de récurrence résultant de (7.211) 


| 2 
Ch = Che Fans 2x; 
nn 
(7.213) 
dr = dater R—— cr Où. | 
Pour 4 = 1, c’est-à-dire dans le premier cycle, il n'existe pas 
encore de données je à par les cycles antérieurs. Donc 


2 2 
Po= qo(a)= rep {5 + Ge} (7.214) 
On en déduit que ni _ 
1 2 
Dos: Co GE: d= — DE (7.215) 


2 
20% 


Ces expressions avec (7.213) peuvent servir pour calculer c, et d,. 
Les calculs d'après la formule (7.198) amènent l'expression 


(ask — 2pshvsn)? f Gik 1 
ons Lt Ten {7 (7.210 


où E ,1 dépend de ket des observations précédentes (nous ne donnons 
pas cette fonction car nous n’en aurons pas besoin dans la suite) 
et les coefficients Psns Usa et Gen Sont définis par les égalités 


: (7.247) 


Bonne À (in—un), Von = 2h — Un. ) 


Les expressions (7.216) et (7. 217) montrent que seul le terme 
entre crochets de la formule (7.216) pour a; dépend de usn dissimulé 
dans le coefficient vx. C’est pourquoi, par exemple, la condition 
de minimum de GnN par. “PPPOR à Unn correspond à l'égalité 


En y etant la . de v,n on en tire 


LÉ x = 2Èn— Zpnn je (7.219) 


Le dernier terme est d'estimation optimale de’ ra 
27—0966 
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L'examen de l'expression ay — vin montre que y,_41,n n'y 
fait partie que dans la différence y,41, N— Un, nn = 2. C'est 


pourquoi en remplaçant dans l'intégrale : VAN dYn1, N la Varia: 


ble d'intégration par z on peut voir que cette intégrale ne dépend 
pas de uh-1, + Par conséquent, la valeur optimale Un, n S’obtient, 
en minimisant le seul terme &h1,n par rapport à u,4, Un 
raisonnement analogue permet d établir que, généralement, lu 
valeur optimale u$, s'obtient par minimisation de l'expression de 
asn par rapport à w,,. [l en résulte donc que 


4sh L 
sh = Th — 5, = ah —| . 
Psh CaOuVRrLen 
kR-1 n 


bre D > (Li — ui) + —— Te ee 5 (Zir — uix) |. (7.220) 


=1 i—0 


où 
. 4 { 1} (k—1 
MER TE 2 -- (7.221) 
{ S:. 1 
ALERT TT (7.222) 


Le deuxième terme entre crochets tient compte des observations 
réalisées pendant les cycles précédents. 

L'algorithme (7.220) peut être réalisé dans le schéma fonctionnel 
7.20. Les valeurs des différences (y: — u,x) sont canalisées jus- 
qu’au bloc M, de la partie À, de 
l'organe de commande, bloc qui 
calcule Z,_14,. Une fois le cycle 
achevé, l'information accumulée 
par le bloc en est effacée. La 
partie 4: de l'organe de com- 
mande transmet au bloc Z, les 
valeurs b,-, et cx_1 Le bloc Z, 
est régi par la formule (7.220). 

La partie À, qui emmagasine 
l'expérience des cycles antérieurs 
comporte un bloc de calcul de la 
différence (y:r — üusr), un bloc 
doublant A7, et, enfin, un bloc 
de calcul de &; 4 et c4.1 d’après 
les formules de récurrence (7.213) 
et (7.249). 

La division de l’organe À en parties À; et À, est dans une cer- 
taine mesure conventionnelle. On peut représenter, par exemple, le 
bloc sans inéttie L, sous la forme d’une partie de l’organe’de comman- 
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de, le bloc A7, sous la forme d’une autre partie mémorisant l'infor- 
mation d’un caractère particulier pendant le cycle courant, le bloc 
L: sous la forme d'une troisième partie accumulant l'information 
d’un caractère plus général. Pourtant, dans ce cas également l’orga- 
ne de commande dans son ensemble est une hiérarchie des parties 
qui accumulent une information de plus en plus générale. 

On peut montrer qu'avec la croissance du numéro du cycle, le 
risque moyen en un cycle, c’est-à-dire la grandeur 


ñn 
Se= 2 Rs (7.223) 
s—0 


diminue. 
En portant (7.220) dans (7.188) on obtient par intégration la 
valeur minimale du risque élémentaire RÀ.3 : 
8 (n +1) (&—1) (05 + oi) 
Rin — 0 + "of L2, (0028 va Len)? 
a de | J a 
ro (ai) gr 020 


Si 07 > 04, c'est-à-dire si la variance a priori du paramètre a est 
grande et l’indétermination principale est due à une mauvaise 


Léck 


+ 


lo 2 40 2 40 2 40 2 #0 2 40 
pe 


— 1 _—— K 
s] 


, / 2 3 4 


Fig. 7.21. 


La 


connaissance de ce paramètre, l’accumulation de l'information est 
la plus rapide. Cette inégalité permet de simplifier (7.224) 


. s (n +1) (k—1) (05 + 05) R 2 
PE) MR on AE 1) . (7.225) 


GhLsh (GO Va Len)? 
27% 
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La formule (7.225) montre que lorsque s croît, pour k fixé, Rx 
décroît, et lorsque 4 croît, s étant fixé, R,4 décroît de façon mono- 
tone. La figure 7.21 représente la variation de À, en fonction des 
valeurs 6, = 6, — Î. Ce diagramme montre que déjà vers le cin- 
quième cycle le système se stabilise, c’est-à-dire que le paramètre a 
est assez bien défini. 

La figure 7.22 représente [a variation du risque total S, durant 
un cycle. La vitesse de décroissance de S, d’un cycle à l’autre carac- 
érise la vitesse du processus d'apprentissage qui consiste, dans 


ny 

80! \ 

38 |- 

7 

4e 

a 3 4 S . 
Fig. 7.22. 


notre exemple, dans l’accumulation de l'expérience par la partie 
A; de l'organe de commande dans le but d'améliorer l’algorithme 
de la partie À, en modifiant le coefficient c_1. Le risque élémen- 
taire RAA pour k = const diminue avec l'accroissement de k£ par 
suite l'accumulation de l'information pendant le cycle. On pourrait 
appeler cet effet « apprentissage en germe », car il est lié à la modi- 
fication dirigée de l'algorithme du bloc Z;. Plus généralement, dans 
tout système optimal, l'accumulation de l'information contribue à 
l'apprentissage du système plus ou moins efficace. La différence 
entre divers types de systèmes est définie dans une grande mesure 
par le volume d'information accumulée et, par suite, par l’existence 
d’une hiérarchie plus ou moins développée des parties de l'organe de 
commande. 


CONCLUSION 


Quelles sont les tendances et les perspectives les plus proches de 
la théorie des systèmes optimaux ? 

Il est difficile de donner à cette question une réponse complète 
du fait que l'essor de cette théorie peut définir dès demain des tour- 
nants imprévus et des situations nouvelles. On ne peut formuler que 
certaines considérations qui se présentent comme très probables. 

: Tout d’abord il faut fournir un grand effort pour jeter un pont 
entre la théorie et la pratique. Les applications pratiques de la théo- 
rie des systèmes optimaux sont encore insuffisantes bien que leur 
nombre ne cesse de croître. L'étude des types concrets des systèmes 
optimaux à utiliser dans l'industrie chimique, métallurgique et 
autres, la mise au point des stratégies optimales de commande des 
systèmes de transport et énergétiques complexes poseront plusieurs 
nouveaux problèmes dont la résolution favorisant l’activité pratique 
impulsera le développement de la théorie. La conception des systè- 
mes voisins des optimaux et la détermination des algorithmes quasi 
optimaux sont un problème théorique d'actualité très important 
(cf., ‘par exemple, {3.67]). Pour lui suffire, il faut mettre à profit 
l’arsenal richissime des méthodes générales de l'analyse moderne, 
de l’analyse fonctionnelle entre autres, et les moyens puissants que 
fournissent les techniques de calcul. Les questions relatives à la 
synthèse pratique des systèmes font également partie de ce corps de 
problèmes; cette synthèse porte non pas sur les algorithmes ou les 
schémas fonctionnels abstraits, mais sur des schémas réels des orga- 
nes de commande optimaux et de leurs blocs. 

Le développement de la théorie des systèmes optimaux conduira 
à son extension au cas où l’on dispose de l'information a priori non 
seulement sur le système, mais encore sur l’organe de commande: 
La sélection de l’organe de commande sera ainsi soumise à certainés 
contraintes. Ce.sont des problèmes qui jusqu'à présent n'ont été 
que peu étudiés et n’ont pas été examinés dans notre ouvrage.Or, 
l'importance d'une telle approche ne soulève aucun doute. Tout 


organe de commande réel se constitue à partir d'éléments réels aux 
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possibilités restreintes. Ces éléments subissent l'action des pertur- 
bations ; leur bande de fréquences ou, plus généralement, leur bande 
passante dans le sens informatique est bornée. 

La fiabilité de ces éléments n’est pas suffisante ; ils peuvent don- 
ner lieu à des défaillances alors que l’ensemble du système doit 
fonctionner sans aléas. Enfin, des considérations économiques impo- 
sent le choix de la version susceptible d'assurer un avantage maxi- 
mal, par exemple sur le plan des investissements ou des frais d’ex- 
ploitation par unité produite. La théorie des systèmes optimaux 
débouche dans ce domaine sur la théorie de la fiabilité et les pro- 
blèmes qu'elle pose sont très proches des problèmes économiques et 
autres qui appartiennent, en fait, à la théorie des systèmes complexes. 

La troisième orientation de La théorie des systèmes optimaux est 
celle du concept d'’indétermination. L'indétermination, l'absence 
d'une information a priori exhaustive sur le système et, d'autant 
plus, sur l'organe de commande, sont caractéristiques de la théorie 
de la commande. Dans notre ouvrage nous avons insisté à plus d’une 
reprise sur ce fait. Les problèmes que nous avons étudiés forment 
essentiellement deux groupes dont l’un intéresse les systèmes à 
information complète sur l’objet commandé et l’autre les systèmes 
à information incomplète mais disposant des renseignements a prio- 
ri probabilistes (méthode bayésienne). 

La réalité donne pourtant lieu à des cas très fréquents lorsque 
les caractéristiques probabilistes a priori sont absentes du tout ou ne 
sont connues que partiellement, ou encore, changent d’une façon 
imprévisible. Dans ces cas, l'information sur l'objet commandé au 
sein du système considéré est encore moins complète que dans les 
systèmes passés en revue dans notre ouvrage. L'extension de la théo- 
rie des systèmes optimaux aux cas qui viennent d’être indiqués est 
très nécessaire de nos jours du point de vue pratique. Cette extension 
fait l’objet d'une partie de [2.38]. Certes, la généralisation d’une 
théorie peut se faire par des voies différentes. Il semble que dans le 
domaine considéré on fera toujours plus appel à une méthode inspi- 
rée par la théorie des jeux [5.10-5.14, 5.32-5.85]. Cette méthode su- 
bira probablement des modifications au fur et à mesure que se déve- 
loppera la théorie des jeux qui interviendra dans des domaines tou- 
jours nouveaux, tels les jeux à plusieurs participants, pas forcément 
antagonistes, par exemple, pouvant coopérer provisoirement et 
s’entr'aider en vue d'un bénéfice commun. Le développement de la 
théorie des jeux des automates présente également, à notre avis, 
une tendance prometteuse [6.18]. Pourtant, dans le « jeu » contre la 
nature la méthode inspirée par la théorie des jeux n’est pas toujours 
assez justifiée (cf. chapitre V). C'est pourquoi on verra se dévelop- 
per d’autres méthodes, par exemple la méthode réunissant le prin- 
cipe du minimax à l'accumulation de l'information au cours du 
travail du système (cf. notamment, [5.36]). Cette méthode met à 
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profit tous les renseignements sur le système accumulés jusqu’à 
l'instant donné. Supposons que ces renseignements soient insuffi- 
sants pour définir d’une façon univoque les caractéristiques proba- 
bilistes et qu’il leur corresponde un ensemble de caractéristiques 
possibles. Pourtant, cet ensemble est borné par l'information recueil- 
lie au cours du processus et son volume est plus petit que celui de 
départ. Plus la quantité de l'information fournie à l’organe de com- 
mande est grande, plus le volume de l’ensemble considéré est petit. 
En choisissant dans cet ensemble les caractéristiques «les plus 
mauvaises » et les plus dangereuses sous l’optique du critère d’opti- 
malité adopté, c’est-à-dire en appliquant le principe du minimax, on 
peut établir pour le cas considéré une stratégie optimale du mini- 
max. À mesure que l’information sur le système s’accumule, cette 
stratégie se rapproche de plus en plus de la stratégie optimale asso- 
ciée à une information complète ou maximale sur le système. 

Une autre approche, qui apparemment diffère peu de la précé- 
dente, consiste à appliquer le concept de probabilité induite. L’ori- 
gine de cette notion remonte à Bernoulli et Laplace, fondateurs du 
calcul des probabilités. À notre époque, ce concept. est approfondi 
par R. Carnap 15.371. Certains problèmes utilisant la notion de 
probabilité induite sont étudiés par Bellman [2.38] et 15.38]. 

Voici un exposé très simple du principe de la probabilité induite: 
Supposons que nous ne savons rien sur un certain événement aléa- 
toire. Nous n'avons alors pins raison de considérer a probabili- 


té supérieure ou inférieure à 3 . On la prendra donc égale à > . D'autre 


part, si l'événement s’est Re dans m de n ne pour un ñ 
grand, la fréquence m/n peut être prise pour la mesure de la proba- 


bilité. La formule qui donne le résultat égal à _ pourn =.m =0et 


le résultat égal à m/n dans le cas de m et n grands s'écrit: 
14m 

| PiT 2LEn° 
C’est précisément la formule la plus simple de la probabilité induite. 
Elle donne, à partir de l'expérience antérieure, la mesure de la pro- 
babilité future d’un événement aléatoire, le nombre d'épreuves 
effectuées dans le passé pouvant être quelconque, grand ou petit. 
Les questions relatives à la justification des formules de ce type 
dépassent, certes, le cadre du calcul des probabilités [5.37]. 

En général, l'établissement des méthodes d'exploration des 
situations indéterminées est d’un intérêt capital pour comprendre 
le fonctionnement des systèmes organisés complexes, ainsi que pour 
développer la théorie des systèmes auto-adaptatifs et par là même 
toute la cybernétique. 

Une tendance importante de Ia théorie des systèmes optimaux 
est la position toujours plus universelle des problèmes et la mise au 
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point des méthodes de résolution de plus en plus générales. La ten- 
dance d’envisager d'un point de vue unique les problèmes les plus 
divers subsistera dans l’avenir et aura pour conséquence une liaison 
toujours plus intime de la théorie des systèmes optimaux avec d’au- 
tres. orientations de la cybernétique technique. 

Une telle jonction est très importante. En effet, elle garantit la 
formation d’une base théorique et scientifique unique pour l’ensem- 
ble de la cybernétique. Il semble qu’une telle base et les lois géné- 
rales définissant les possibilités des systèmes cybernétiques repo- 
serons sur les principes de l'informatique. En effet, les éléments 
fondamentaux de la cybernétique sont les concepts associés à l’in- 
formation et à son traitement. 

La théorie de l'information brillante et profonde de Shannon 
avec ses ramifications actuelles est l’un des premiers pas dans la 
formation des principes scientifiques de la cybernétique. Le concept 
de la quantité d’information introduit par Shannon suffit lors d’une 
étude isolée des problèmes de transmission de l’information par un 
canal. Maïs là théorie du traitement de l'information dans les systè- 
mes en boucle fermée impose l'introduction dans l’informatique de 
concepts nouveaux, aü moins de celui de sens et de valeur de l’in- 
formation. La discussion de ces concepts dépasse le cadre du présent 
ouvrage. Bornons-nous à illustrer la nécessité de cette introduction 
sur l'exemple de l’activité des' systèmes biologiques. Un homme est 
soumis à un grand nombré de stimuli de toutes sortes et,s’il réagissait 
à chacun d'eux, son activité se traduirait par des mouvements dé- 
sordonnés les plus variés. Or en fait, un homme agit de façon conscien- 
te et sélectio’ne l'information reçue d’après son sens, c'est-à- 
dire d’ après la relation qui existe entre l'information et les objets 
réels,. d’après. la-valeur de celle-ci, c'est-à-dire d’âprès son utilité 
pour les actions envisagées par l’homme. : 

Les processus'optimaux de la sélection de l’ information, la per- 
ception, la formation des conceptions générales et, enfin, l’établis- 
sement des projets, la préparation des actions, en d’autres termes, la 
simulation de la pensée dans un domaine défini, autant d’ éléments 
qui doivent trouver leur place dans la théorie générale des systèmes 
optimaux. Les processus ‘d’auto*apprentissage, d’auto-organisa- 
tion et d’autres types d'adaptation pourront alors être étudiés dans 
une' optique unique pour être rangés d'après leur efficacité. 

La logique de l'automatisation conduit non seulement à l’exten- 
sion illimitée: du domaine d'action des systèmes autoniatiques mais 
encore à la complication qualitative des. problèmes qui se posent. 

En effet, l’automatisation des travaux de routine, des travaux 
nécessitant une faible et une moyenne qualification permet à ur 
nombre toujours plus grand d'hommes de se consacrer à une activité 
plus qualifiée, à caractère souvent auxiliaire. [Il s’agit avant tout du 
contrôle, du réglage, de la planification, de la recherche, etc. L'au- 
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tomatisation ultérieure vise à aider l'homme dans ses activités 
hautement intellectuelles. L'extension des automates technologiques 
assurant le processus de production proprement dit s’accompagnera 
de celle des automates de contrôle, de réglage, de planification, on 
verra apparaître des automates qui faciliteront la recherche et rem- 
placeront l'homme à certaines de ses étapes. 

Bien entendu, le remplacement de plus en plus poussé de l’hom- 
me par les automates ne risque pas de l’évincer de la production. 
C'est l’homme qui commandera toujours un système automatique et 
plus ce dernier se complique, plus important devient le rôle de 
l'homme. 

Les automates assument les fonctions de plus en plus complexes, 
y compris les fonctions relatives à la conception des systèmes de 
commande. Une question se pose à savoir quel sera, aux nouvelles. 
étapes de l'automatisation, le rôle de la théorie, y compris de la 
théorie des systèmes optimaux ? Les nouvelles tendances de l’auto- 
matisation ne risquent-elles pas de remplacer l’homme par les auto- 
mates dans le domaine de l'élaboration de la stratégie optimale ? 

Supposons que le couplage des blocs élémentaires d’un organe de 
commande soit d’abord aléatoire; en cours d'apprentissage et 
d'adaptation le schéma fonctionnel et ses paramètres changent auto-- 
matiquement jusqu’à ce qu'on arrive à l’optimum. Quel est le rôle 
de la théorie des systèmes optimaux ? Ne verrons-nous pas son 
déclin après avoir assisté à son essor ? Ne deviendra-t-elle pas inutile- 
dans l'avenir ? 

Cette question se rapporte dans la même mesure à toute théorie. 
Selon nous il ne peut y avoir qu’une réponse; jamaïs une théorie ne: 
peut être remplacée par l’expérimentation tâtonnante, même eftec- 
tuée par des automates et non par des hommes. La science et la 
technique de l’avenir auront encore plus besoin de la pensée, des. 
hypothèses, des constructions, donc de la théorie. C’est pourquoi 
la thèse du dépérissement de la théorie est fausse. Cependant la 
théorie doit changer de caractère. Si un automate effectue des cal- 
culs plus vite, d’une façon plus simple et avec une précision plus. 
grande qu’un homme, ces calculs doivent être réalisés par l’automa- 
te. Même si la tâche du théoricien se limite à la présentation du pro- 
blème sous la forme d’un programme à traiter sur une machine, 
jusqu’à ce stade Le champ d'activité de la théorie est très vaste. 

Par ailleurs, l'interaction homme-machine pose de nouveaux 
problèmes théoriques. Comment devraient être les blocs élémentaires. 
d’un automate d’auto-apprentissage pour qu’il assure la résolution 
de problèmes suffisamment nombreux ? Quelles sont les conditions. 
de convergence du processus d’apprentissage ? Quelle est la rela- 
tion entre les caractéristiques du processus d'apprentissage et l’état 
initial de l’automate ? Comment assurer l’approximation optimale 
en cours d’apprentissage ? Enfin, que faire pour rendre optimal le 


426 CONCLUSION 


processus d'apprentissage, par exemple, comment rendre minimale 
sa durée ou obtenir Le résultat le plus précis possible ? 

Ainsi la nouvelle étape de l'automatisation fait naître des pro- 
blèmes théoriques plus généraux que les précédents. Leur résolution 
impose de nouvelles méthodes, de nouvelles approches. Plus encore, 
l'emploi des machines étend les possibilités de La théorie et met à 
l’ordre du jour les problèmes qui hier encore étaient inimaginables. 
En définitive, l'interaction des machines et de la théorie contribue 
à leur perfectionnement et à leur développement. 

Les problèmes qui se posent à la théorie se compliquent en même 
temps que l’activité pratique de l’homme exige des connaïssances 
d’un niveau plus élevé. Cet essor permanent est la condition sine 
qua non de la maîtrise de la technique actuelle et de Ia création de la 
technique des lendemains. 
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